语法扩展 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

format 支持跑远了！ • 鉴于 C++20 还没有普遍落地（例如 CMake 不支持 C++20 modules ）因此我们的课程基于 C++17 标准，有时会谈到 C++20 作为扩展阅读。 C++ 有哪些面向对象思想？ C++ 思想：封装比如要表达一个数组，需要：起始地址指针 v ，数组大小 nv 将多个逻辑上相关的变量包装成一个类因此 C++ 的 vector 将他俩打包起来，避免程序员犯错陷阱解决方案） • 不过我们可以手动指定初始化 weight 为 0 。 • 通过 {} 语法指定的初始化值，会在编译器自动生成的构造函数里执行。编译器默认生成的构造函数：无参数（ POD 陷阱解决方案，续） • 不过我们可以手动指定初始化 weight 为 0 。 • 通过 {} 语法指定的初始化值，不仅会在编译器自动生成的构造函数里执行，也会用户自定义构造函数里执行！ m_weight 。有自定义构造函数时仍想用默认构造函数： = default （续） • 如果还想让编译器自动生成默认的无参构造函数，可以用 C++11 新增的这个语法：不过，据我所知，初始化列表的那个构造函数就没办法通过 = default 语法恢复…… 编译器默认生成的构造函数：拷贝构造函数 • 除了无参和初始化列表构造函数外，编译器默认还会生成这样一个特殊的构造函数： • Pig(Pig

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

字符了（多余的部分实际上被用于表示中文）。 • char 和整数无异，例如 ‘ a’ 实际上会被编译器翻译成他对应的 ASCII 码： 97 。写 ‘ a’ 和写 (char)97 是完全一样的，方便阅读的语法糖而已。 “char 即整数”思想应用举例 “char 即整数”思想应用举例 C 语言帮手函数帮手函数大全 • isupper(c) 判断是否为大写字母（‘ A’ <= c && c <= 语言中的字符串 • 正如 ‘ h’ 是个语法糖，等价于 h 的 ASCII 码——整数 104 。 • “hello” 也是个语法糖，他等价于数组 {‘h’, ‘e’, ‘l’, ‘l’, ‘o’, 0} 。 C 语言字符串的特点 • 正如 ‘ h’ 是个语法糖，等价于 h 的 ASCII 码——整数 104 。 • “hello” 也是个语法糖，他等价于数组 {‘h’, ‘e’, std::string 其实是同等地位的。 • 虽然也可以给 std::string 定义很多个不同的 + 重载，每个针对不同的数字类型（ int 、 float 、 double ）排列组合，但是这样没有可扩展性，而且影响编译速度。 • 所以 cpp 说，你必须手动把 42 先转换为字符串，然后再和已有的字符串相加： • “you have ” + std::to_string(42) + “ yuan”

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

48 位一致（符号扩展），也就是虚拟地址空间只有 48 位。 • 而经过 MMU 映射后实际给内存的地址只有 39 位，因此如今的 x64 架构实际上只能访问 512GB 内存，如果插了超过这个大小的内存条他也不会认出来。 • 此外， 16 位计算机实际上能通过额外的段寄存器访问到 20 位的内存地址（ 1MB ）。 • 32 位计算机还能通过 PAE 技术（物理地址扩展）访问到 36 位的内存地址（实验：不同大小之间的整数互转 • C 语言可以用 (short)x 的形式来强制把任意类型的 x 转换为 short 类型。 • 如果源类型比目的类型小，那么会根据目的类型是有符号还是无符号的，自动扩展他的符号位。 • 例如 char 类型的 -128 是 10000000 • 强制转换为 short 后是 11111111 10000000 • 可见符号位被完全填充到了 short 的前一个字节，这的数据类型（但凡是多个字节组成的）必须是大端字节序。假如 x=0x01234567 ，则： int 类型对应的指针类型： int* • 指针，顾名思义，就是“指向”一个内存中的变量。 • 语法规定：任何类型 T 所对应的指针类型是 T* 。 • 可以通过 & 运算符获取一个变量的指针（地址）。 • 可以通过 * 运算符访问指针指向的变量（左值）。 • 因此指针指向了变量，通过指针的

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

另一种方式：先创建目标，稍后再添加源文件如果有多个源文件呢？逐个添加即可使用变量来存储建议把头文件也加上，这样在 VS 里可以出现在“ Header Files” 一栏使用 GLOB 自动查找当前目录下指定扩展名的文件，实现批量添加源文件启用 CONFIGURE_DEPENDS 选项，当添加新文件时，自动更新变量如果源码放在子文件夹里怎么办？必须把路径名和后缀名的排列组合全部写出来吗？感觉好麻烦标准： CMAKE_CXX_STANDARD 变量 • CMAKE_CXX_EXTENSIONS 也是 BOOL 类型，默认为 ON 。设为 ON 表示启用 GCC 特有的一些扩展功能； OFF 则关闭 GCC 的扩展功能，只使用标准的 C++ 。 • 要兼容其他编译器（如 MSVC ）的项目，都会设为 OFF 防止不小心用了 GCC 才有的特性。 • 此外，最好是在 project 指令前设置 find_package 找到的库文件位置等信息，储存起来。这样下次执行 find_package 时，就会利用上次缓存的变量，直接返回。避免重复执行 cmake -B 时速度变慢的问题。设置缓存变量语法是： set( 变量名 “变量值” CACHE 变量类型 “注释” ) 缓存的 myvar 会出现在 build/CMakeCache.txt 里常见问题：我修改了 CMakeLists.txt

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

*)(rdi + rsi * 4) size_t 在 64 位系统上相当于 uint64_t size_t 在 32 位系统上相当于 uint32_t 从而不需要用 movslq 从 32 位符号扩展到 64 位，更高效。而且也能处理数组大小超过 INT_MAX 的情况，推荐始终用 size_t 表示数组大小和索引。浮点作为参数和返回： xmm 系列寄存器 xmm0 = xmm0 + 译器会放弃优化对他的读写操作。做性能实验的时候非常有用。注意一下区别 1. volatile int *a 或 int volatile *a 2. int *__restrict a • 语法上区别： volatile 在 * 前面而 __restrict 在 * 后面。 • 功能上区别： volatile 是禁用优化， __restrict 是帮助优化。 • 是否属于标准上区别：字节大小，矢量化反而成功了？？结论：计算机喜欢 2 的整数幂， 2, 4, 8, 16, 32, 64, 128... 结构体大小若不是 2 的整数幂，往往会导致 SIMD 优化失败。 C++11 新语法： alignas 在 struct 后加上 alignas( 要对齐到的字节数 ) 即可实现同样效果，就不需要手动写 padding 变量了。那是不是所有结构体打上 alignas(16)

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

bool 转换成 int 类型（ movzx 把 1 字节的 al 转换成 4 字节的 eax ，零扩展：高 3 字节填充零） • 返回类型 int 占据 4 字节（ eax 寄存器就是 4 字节的） • 返回值都放 eax 寄存器（刚刚算得的就在 eax ，直接返回）无分支优化：从语法角度分析 • 刚刚其实是利用了 C 语言把 bool 类型的 true 当做 1 ， false • 通过 virtual 关键字给类定义一个虚函数，他其实就是在类成员里加了一个函数指针。 • 而在构造函数里，会把当前类重载过的虚函数，赋予给那个函数指针，实现多态。 • 虚函数是 C++ 的语法糖，纯 C 的 Linux 内核中也用到多态，就是用函数指针实现的。例如左图中的虚函数，和右边的函数指针版本等价。因此性能分析时，把虚函数视为函数指针。 • 注：实际中虚函数往往有很多个，为

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

就相当于让相等条件变成了 a[0] == b[0] 。也就是说只要第一个字符相等就视为字符串相等，所以 “ arch” 和 “ any” 会被视为相等的元素，从而被 set 给去重了！ • 扩展知识：其实， map 无非就是个只比较 K 无视 T 的 set> ，顺手还加了一些方便的函数，比如 [] 和 at 。 set 和 vector 迭代器的共同点 iterator first; • bool second; • }; 使用 C++17 的结构化绑定来拆解 pair • C++17 提供了结构化绑定 (structual binding) 的语法，可以取出一个 POD 结构体的所有成员， pair 也不例外。 • auto [ok, it] = b.insert(3); • 等价于 • auto tmp = b.insert(3);

0 码力 | 83 页 | 10.23 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

second;// V 类型 map 的遍历：用 C++17 range-based loop • 和 vector 等 STL 容器一样， map 也支持 C++17 的 range-based loop 语法进行遍历。 • for (auto tmp: m) • 由于刚刚说了， map 真正的“元素类型”是 K-V 对，所以这里的 auto 如果不省略应该是： • for (pair语法糖，他和 range-based loop 可以配合着用。 • for (auto [k, v]: m) { • print(k, v); } • auto [k, v] 这个就是 structural-binding ，我们第三课讲 tuple 时就介绍过了。 • 本来是要再写一行 auto [k, v] = tmp 的，但是 C++17 开恩，允许两个语法糖一起这里说的指针，不光是 T * 指针，还包括 T & 引用， iterator 迭代器，他们都是指针的变体。 • 而 structural-binding 和 range-based loop 语法支持引用，也非常简单： • for (auto &[k, v]: m) { • v = v2; // 引用比指针还方便，自动解引用。此处等价于迭代器版的 (*it).second = v2;

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

）。 • 但坏处也很明显： 1. make 在 Unix 类系统上是通用的，但在 Windows 则不然。 2. 需要准确地指明每个项目之间的依赖关系，有头文件时特别头疼。 3. make 的语法非常简单，不像 shell 或 python 可以做很多判断等。 4. 不同的编译器有不同的 flag 规则，为 g++ 准备的参数可能对 MSVC 不适用。构建系统的构建系统（ CMake ）需要准确地指明每个项目之间的依赖关系，有头文件时特别头疼。 • CMake 可以自动检测源文件和头文件之间的依赖关系，导出到 Makefile 里。 • make 的语法非常简单，不像 shell 或 python 可以做很多判断等。 • CMake 具有相对高级的语法，内置的函数能够处理 configure ， install 等常见需求。 • 不同的编译器有不同的 flag 规则，为 g++ 准备的参数可能对编译时插入 CMake 中的静态库与动态库 • CMake 除了 add_executable 可以生成可执行文件外，还可以通过 add_library 生成库文件。 • add_library 的语法与 add_executable 大致相同，除了他需要指定是动态库还是静态库： • add_library(test STATIC source1.cpp source2.cpp) # 生成静态库

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

https://www.nvidia.cn/docs/IO/51635/NVIDIA_CUDA_Programming_Guide_1.1_chs.pdf CUDA 编译器兼容 C++17 • CUDA 的语法，基本完全兼容 C++ 。包括 C+ +17 新特性，都可以用。甚至可以把任何一个 C++ 项目的文件后缀名全部改成 .cu ，都能编译出来。 • 这是 CUDA 的一大好处， CUDA __global__ 修饰符，即可让他在 GPU 上执行。 • 不过调用 kernel 时，不能直接 kernel() ，而是要用 kernel<<<1, 1>>>() 这样的三重尖括号语法。为什么？这里面的两个 1 有什么用？稍后会说明。 • 运行以后，就会在 GPU 上执行 printf 了。 • 这里的 kernel 函数在 GPU 上执行，称为核函数，用 __global__ 能够在 main 退出前等到 kernel 在 GPU 上执行完。定义在 GPU 上的设备函数 • __global__ 用于定义核函数，他在 GPU 上执行，从 CPU 端通过三重尖括号语法调用，可以有参数，不可以有返回值。 • 而 __device__ 则用于定义设备函数，他在 GPU 上执行，但是从 GPU 上调用的，而且不需要三重尖括号，和普通函数用起来一样，可以有参数，有返回值。

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 22 条前往

页

C++高性性能高性能并行编程优化课件 02 15 12 11 04 14 17 01 08

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程