通用人工智能 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

x64 架构下的寄存器模型通用寄存器： 32 位时代 • 32 位 x86 架构中的通用寄存器有： • eax, ecx, edx, ebx, esi, edi, esp, ebp • 其中 esp 是堆栈指针寄存器，和函数的调用与返回相关。 • 其中 eax 是用于保存返回值的寄存器。通用寄存器： 64 位时代 • 64 位 x86 架构中的通用寄存器有： • rax, rcx 4 = 0 ，从而不会生成边界特判的分支。假定指针是 16 字节对齐的： assume_aligned 如果能保证指针 a 总是对齐到 16 字节，在 GCC 编译器中这样写：但这样不通用，因此 C++20 引入了标准化的 std::assume_aligned ： movups 变成了 movaps 对齐的读写可能带来微乎其微的性能提升…… 数组求和： reduction 的优化

0 码力 | 108 页 | 9.47 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

的驱动下，一个大而全的字符集 Unicode 应运而生。 Unicode 的中文名称为“统一码”，理论上能容纳 100 多万个字符。它致力于将全球范围内的字符纳入统一的字符集之中，提供一种通用的字符集来处理和显示各种语言文字，减少因为编码标准不同而产生的乱码问题。自 1991 年发布以来，Unicode 不断扩充新的语言与字符。截至 2022 年 9 月，Unicode 已经包含 149186 个字符，包括各种语言的字符、符号甚至表情符号等。在庞大的 Unicode 字符集中，常用的字符占用 2 字节，有些生僻的字符占用 3 字节甚至 4 字节。 Unicode 是一种通用字符集，本质上是给每个字符分配一个编号（称为“码点”），但它并没有规定在计算机中如何存储这些字符码点。我们不禁会问：当多种长度的 Unicode 码点同时出现在一个文本中时，系统如何解析字符？例如给定一个长度为表示英文字符非常高效，因为它仅需 1 字节；使用 UTF‑16 编码某些非英文字符（例如中文）会更加高效，因为它仅需 2 字节，而 UTF‑8 可能需要 3 字节。从兼容性的角度看，UTF‑8 的通用性最佳，许多工具和库优先支持 UTF‑8 。第 3 章数据结构 hello‑algo.com 63 3.4.5 编程语言的字符编码对于以往的大多数编程语言，程序运行中的字符串都采用 UTF‑16

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0 C++版

驱动下，一个大而全的字符集 Unicode 应运而生。「Unicode」的中文名称为“统一码”，理论上能容纳 100 多万个字符。它致力于将全球范围内的字符纳入统一的字符集之中，提供一种通用的字符集来处理和显示各种语言文字，减少因为编码标准不同而产生的乱码问题。自 1991 年发布以来，Unicode 不断扩充新的语言与字符。截至 2022 年 9 月，Unicode 已经包含 149186 个字符，包括各种语言的字符、符号甚至表情符号等。在庞大的 Unicode 字符集中，常用的字符占用 2 字节，有些生僻的字符占用 3 字节甚至 4 字节。 Unicode 是一种通用字符集，本质上是给每个字符分配一个编号（称为“码点”），但它并没有规定在计算机中如何存储这些字符码点。我们不禁会问：当多种长度的 Unicode 码点同时出现在一个文本中时，系统如何解析字符？例如给定一个长度为表示英文字符非常高效，因为它仅需 1 字节；使用 UTF‑16 编码某些非英文字符（例如中文）会更加高效，因为它仅需 2 字节，而 UTF‑8 可能需要 3 字节。从兼容性的角度看，UTF‑8 的通用性最佳，许多工具和库优先支持 UTF‑8 。第 3 章数据结构 hello‑algo.com 63 3.4.5 编程语言的字符编码对于以往的大多数编程语言，程序运行中的字符串都采用 UTF‑16

0 码力 | 378 页 | 17.59 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

想法的驱动下，一个大而全的字符集 Unicode 应运而生。「Unicode」的全称为“统一字符编码”，理论上能容纳一百多万个字符。它致力于将全球范围内的字符纳入到统一的字符集之中，提供一种通用的字符集来处理和显示各种语言文字，减少因为编码标准不同而产生的乱码问题。自 1991 年发布以来，Unicode 不断扩充新的语言与字符。截止 2022 年 9 月，Unicode 已经包含表示英文字符非常高效，因为它仅需 1 个字节；使用 UTF‑16 编码某些非英文字符（例如中文）会更加高效，因为它只需要 2 个字节，而 UTF‑8 可能需要 3 个字节。从兼容性的角度看，UTF‑8 的通用性最佳，许多工具和库都优先支持 UTF‑8 。 3. 数据结构 hello‑algo.com 48 3.4.5. 编程语言的字符编码对于以往的大多数编程语言，程序运行中的字符串都采用 UTF‑16 符集，共收录两万多个汉字。Unicode 致力于提供一个完整的字符集标准，收录世界内各种语言的字符，从而解决由于字符编码方法不一致而导致的乱码问题。 ‧ UTF‑8 是最受欢迎的 Unicode 编码方法，通用性非常好。它是一种变长的编码方法，具有很好的扩展性，有效提升了存储空间的使用效率。UTF‑16 和 UTF‑32 是等长的编码方法。在编码中文时，UTF‑16 比 UTF‑8 的占用空间更小。Java

0 码力 | 343 页 | 27.39 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

的驱动下，一个大而全的字符集 Unicode 应运而生。 Unicode 的中文名称为“统一码”，理论上能容纳 100 多万个字符。它致力于将全球范围内的字符纳入统一的字符集之中，提供一种通用的字符集来处理和显示各种语言文字，减少因为编码标准不同而产生的乱码问题。自 1991 年发布以来，Unicode 不断扩充新的语言与字符。截至 2022 年 9 月，Unicode 已经包含 149186 个字符，包括各种语言的字符、符号甚至表情符号等。在庞大的 Unicode 字符集中，常用的字符占用 2 字节，有些生僻的字符占用 3 字节甚至 4 字节。 Unicode 是一种通用字符集，本质上是给每个字符分配一个编号（称为“码点”），但它并没有规定在计算机中如何存储这些字符码点。我们不禁会问：当多种长度的 Unicode 码点同时出现在一个文本中时，系统如何解析字符？例如给定一个长度为表示英文字符非常高效，因为它仅需 1 字节；使用 UTF‑16 编码某些非英文字符（例如中文）会更加高效，因为它仅需 2 字节，而 UTF‑8 可能需要 3 字节。从兼容性的角度看，UTF‑8 的通用性最佳，许多工具和库优先支持 UTF‑8 。第 3 章数据结构 www.hello‑algo.com 63 3.4.5 编程语言的字符编码对于以往的大多数编程语言，程序运行中的字符串都采用

0 码力 | 379 页 | 18.48 MB | 10 月前
3
Hello 算法 1.0.0b5 C++版

的驱动下，一个大而全的字符集 Unicode 应运而生。「Unicode」的全称为“统一字符编码”，理论上能容纳一百多万个字符。它致力于将全球范围内的字符纳入到统一的字符集之中，提供一种通用的字符集来处理和显示各种语言文字，减少因为编码标准不同而产生的乱码问题。自 1991 年发布以来，Unicode 不断扩充新的语言与字符。截止 2022 年 9 月，Unicode 已经包含表示英文字符非常高效，因为它仅需 1 个字节；使用 UTF‑16 编码某些非英文字符（例如中文）会更加高效，因为它只需要 2 个字节，而 UTF‑8 可能需要 3 个字节。从兼容性的角度看，UTF‑8 的通用性最佳，许多工具和库都优先支持 UTF‑8 。 3.4.5 编程语言的字符编码对于以往的大多数编程语言，程序运行中的字符串都采用 UTF‑16 或 UTF‑32 这类等长的编码。在等长编码符集，共收录两万多个汉字。Unicode 致力于提供一个完整的字符集标准，收录世界内各种语言的字符，从而解决由于字符编码方法不一致而导致的乱码问题。 ‧ UTF‑8 是最受欢迎的 Unicode 编码方法，通用性非常好。它是一种变长的编码方法，具有很好的扩展性，有效提升了存储空间的使用效率。UTF‑16 和 UTF‑32 是等长的编码方法。在编码中文时，UTF‑16 比 UTF‑8 的占用空间更小。Java

0 码力 | 377 页 | 30.69 MB | 1 年前
3
Hello 算法 1.2.0 繁体中文 C++ 版

的驅動下，一個大而全的字符集 Unicode 應運而生。 Unicode 的中文名稱為“統一碼”，理論上能容納 100 多萬個字元。它致力於將全球範圍內的字元納入統一的字符集之中，提供一種通用的字符集來處理和顯示各種語言文字，減少因為編碼標準不同而產生的亂碼問題。自 1991 年釋出以來，Unicode 不斷擴充新的語言與字元。截至 2022 年 9 月，Unicode 已經包含 149186 個字元，包括各種語言的字元、符號甚至表情符號等。在龐大的 Unicode 字符集中，常用的字元佔用 2 位元組，有些生僻的字元佔用 3 位元組甚至 4 位元組。 Unicode 是一種通用字符集，本質上是給每個字元分配一個編號（稱為“碼點”），但它並沒有規定在計算機中如何儲存這些字元碼點。我們不禁會問：當多種長度的 Unicode 碼點同時出現在一個文字中時，系統如何解析字元？例如給定一個長度為表示英文字元非常高效，因為它僅需 1 位元組；使用 UTF‑16 編碼某些非英文字元（例如中文）會更加高效，因為它僅需 2 位元組，而 UTF‑8 可能需要 3 位元組。從相容性的角度看，UTF‑8 的通用性最佳，許多工具和庫優先支持 UTF‑8 。第 3 章資料結構 www.hello‑algo.com 63 3.4.5 程式語言的字元編碼對於以往的大多數程式語言，程式執行中的字串都採用

0 码力 | 379 页 | 18.79 MB | 10 月前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

-j ）。 3. 用通配符批量生成构建规则，避免针对每个 .cpp 和 .o 重复写 g++ 命令（ %.o: %.cpp ）。 • 但坏处也很明显： 1. make 在 Unix 类系统上是通用的，但在 Windows 则不然。 2. 需要准确地指明每个项目之间的依赖关系，有头文件时特别头疼。 3. make 的语法非常简单，不像 shell 或 python 可以做很多判断等。 4 g++ 准备的参数可能对 MSVC 不适用。构建系统的构建系统（ CMake ） • 为了解决 make 的以上问题，跨平台的 CMake 应运而生！ • make 在 Unix 类系统上是通用的，但在 Windows 则不然。 • 只需要写一份 CMakeLists.txt ，他就能够在调用时生成当前系统所支持的构建系统。 • 需要准确地指明每个项目之间的依赖关系，有头文件时特别头疼。

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

10 = 32 + 10 = 32 。 • 这样一来就和原来带 if-else 的版本的效果完全一样，但是取缔了分支，更高效。 • 我称之为“妙用加减乘”优化法。 “ 妙用加减乘”进行无分支优化的通用公式 • 因此我们总结规律得出： • if (cond) return a; • else return b; • 可以被优化成： • a + (cond) * (b - a) • 三目运算符通常会变成和 if-else 一样的分支，同样会生成条件跳转指令，理应一样低效。但是有时候编译器会检测到，可以帮你自动优化成无分支版本的。 “ 妙用加减乘”进行无分支优化的通用公式 • 我比较喜欢方法 2 ，因为他可以很直观地同样适用于多个分支的情况，例如： • if (x < 0) return 0; • else if (x > 255) return 1; •

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

5/Qt5Config.cmake • 伺候这种非常规安装，就需要设置变量 -DQt5_DIR=/opt/myqtroot/lib/cmake/Qt5 了。科普：亲 Unix 软件从源码安装的通用套路 • Makefile 构建系统： • ./configure --prefix=/usr --with-some-options # 生成 Makefile （这个 configure 也有的软件不拘一格（例如我们的 zeno ），索性用发布的日期作为版本号的三个数字，例如 2022.11.2 。不论采用哪种编号方案，都是几个用点分开的数字，并且数字越大越新，且优先比较靠前面的数字。因此为了通用， CMake 支持最多四个点分开的版本号： ... 。并且如果你写 0.6.8 他会自动帮你把多余的 tweak 默认为 0 ，也就是说 0

0 码力 | 56 页 | 6.87 MB | 1 年前
3

共 19 条前往

页

C++高性性能高性能并行编程优化课件 04 Hello 算法 1.1 1.0 0b4 1.2 简体中文简体中文 0b5 繁体繁体中文 01 16

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

Hello 算法 1.1.0 C++ 版

Hello 算法 1.0.0 C++版

Hello 算法 1.0.0b4 C++版

Hello 算法 1.2.0 简体中文 C++ 版

Hello 算法 1.0.0b5 C++版

Hello 算法 1.2.0 繁体中文 C++ 版

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南