直接寻址 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

CMake 中启用 CUDA 支持 • 最新版的 CMake （ 3.18 以上），只需在 LANGUAGES 后面加上 CUDA 即可启用。 • 然后在 add_executable 里直接加你的 .cu 文件，和 .cpp 一样。 https://www.nvidia.cn/docs/IO/51635/NVIDIA_CUDA_Programming_Guide_1.1_chs.pdf kernel 时，不能直接 kernel() ，而是要用 kernel<<<1, 1>>>() 这样的三重尖括号语法。为什么？这里面的两个 1 有什么用？稍后会说明。 • 运行以后，就会在 GPU 上执行 printf 了。 • 这里的 kernel 函数在 GPU 上执行，称为核函数，用 __global__ 修饰的就是核函数。没有反应？同步一下！ • 然而如果直接编译运行刚刚那段代码，是不会打印出可以调用 device 。声明为内联函数 • 注意， inline 在现代 C++ 中的效果是声明一个函数为 weak 符号，和性能优化意义上的内联无关。 • 优化意义上的内联指把函数体直接放到调用者那里去。 • 因此 CUDA 编译器提供了一个“私货”关键字： __inline__ 来声明一个函数为内联。不论是 CPU 函数还是 GPU 都可以使用，只要你用的 CUDA 编译器。

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

make ， Windows 上调用 devenv.exe ） • 结论：从现在开始，如果在命令行操作 cmake ，请使用更方便的 -B 和 --build 命令。 // 在源码目录用 -B 直接创建 build 目录并生成 build/Makefile // 自动调用本地的构建系统在 build 里构建，即： make -C build -j4 CMakeLists.txt 所在的源码目录。 CMAKE_SOURCE_DIR 表示最为外层 CMakeLists.txt 的源码根目录。利用 PROJECT_SOURCE_DIR 可以实现从子模块里直接获得项目最外层目录的路径。不建议用 CMAKE_SOURCE_DIR ，那样会让你的项目无法被人作为子模块使用。其他相关变量 • PROJECT_SOURCE_DIR ：当前项目源码路径（存放的特性。 https://crascit.com/2015/03/28/enabling-cxx11-in-cmake/ 常见误区：小彭老师，我手动添加 -std=c++17 行不行？ • 请勿直接修改 CMAKE_CXX_FLAGS 来添加 -std=c++17 （你在百度 CSDN 学到的用法）。 • 请使用 CMake 帮你封装好的 CMAKE_CXX_STANDARD （从业人员告诉你的正确用

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

仿真、深度学习编程人员第 0 章：稀疏矩阵稠密数组存储矩阵用 foreach 包装一下枚举的过程改用 map 来存储分离 read/write/create 三种访问模式 foreach 直接给出当前坐标指向的值改用 unordered_map 来存储 unordered_map 手动 read(i, j) 也一样速度索性把坐标和值打包成 tuple ，存储在 vector 按行压缩（ • 比如 a % 8 可以改成 a & 7 。 & = 位运算 & 对负数的处理 • 使用位运算不仅更高效，还能够自动解决刚刚 % 会返回负数的问题： • （因为负数用补码表示，会直接把负号去掉） & = C 语言 / 的特色：负数 • 7 / 4 = 1 • -7 / 4 = -1 • 也就是说 a / b ，如果 a 是负数，则是向上取整，如果 a 是正数，则是向下取整。 (b & ((1 << n) - 1)) 可以取出 a 的高 32-n 位， b 的低 n 位，组合成一个 32 位的整数。解决： & 替代 % ， >> 替代 / ， | 替代 + 块编号直接为对齐的坐标， << 改成 & 和 ~ 自动推算 B 和 Bmask ，顺便扁平化 Block 第 3 章：多层稀疏用一个指针的数组来表示图片解释：指针数组的原理 1 nul nul

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

类系统显示控制字符的一种方式。 • 众所周知，我们常用 Ctrl+C 来发送中断信号（ SIGINT ）强制终止程序，这时常常会看到一个 ^C 的字样，就是这样出现的。这里我们的 cat 程序收到 ^C 以后，就直接终止退出了。关于控制字符的一个冷知识 • 除此之外，因为 ^D 是“传输终止符”，还可以在控制台输入 Ctrl+D 来关闭标准输入流，终止正在读取他的程序。 • 小彭老师常用 Ctrl+D ^I 就是 ‘ \t’ ， ^J 就是 ‘ \ n’ ， ^H 就是 ‘ \b’ ，所以以前原始的计算机键盘上其实还没有 Enter 键，大家都是按 Ctrl+J 来换行的… … • 不过，如果直接在控制台输入 ‘ ^’ 和 ‘ C’ 两个字符并没有 Ctrl+C 的效果哦！因为 ‘ ^C’ 是 Ctrl+C 输入之后一次性显示出来的，并不是真的说 Ctrl 就是 ‘ ^’ 这个字符。的连续内存的首地址指针，不保证 0 结尾。 • 把 C++ 的 string 作为参数传入像 printf 这种 C 语言函数时，需要用 s.c_str() 。 • 如果只是在 C++ 函数之间传参数，直接用 string 或 string const & 即可。 • void legacy_c(const char *name); // 这个函数是古老的 C 语言遗

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

（ Animal.cpp ）。 • 头文件中包含函数和类的声明，源文件则包含他们的实现。七、只有头文件，没有源文件的情况 • 有时我们会直接把实现直接写在头文件里，这时可以没有与之对应的源文件，只有一个头文件。 • 注意：在头文件里直接实现函数时，要加 static 或 inline 关键字。八、每新增一个功能模块，需要创建两个文件 • 添加一个新功能模块 Carer 时，同时添加同名的源文件和头文中的所有路径下查找 XXX.cmake 这个文件。 • 这样你可以在 XXX.cmake 里写一些你常用的函数，宏，变量等。 macro 和 function 的区别 • macro 相当于直接把代码粘贴过去，直接访问调用者的作用域。这里写的相对路径 include 和 src ，是基于调用者所在路径。 • function 则是会创建一个闭包，优先访问定义者的作用域。这里写的相对路径 include org/cmake/help/latest/command/macro.html include 和 add_subdirectory 的区别 • include 相当于直接把代码粘贴过去，直接访问调用者的作用域。这里创建的变量和外面共享，直接 set(key val) 则调用者也有 ${key} 这个变量了。 • function 中则是基于定义者所在路径，优先访问定义者的作用域。这里需要 set(key

0 码力 | 56 页 | 6.87 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

int32_t; • typedef long long int64_t; • 这样不论操作系统对类型的定义如何混乱，这些标准化的类型都是确定的大小。 • 这就避免了跨平台的麻烦，而且直接他们在类型名字中直接写明了类型的大小，更直观。标准化的类型： stdint.h • 除了有符号的 int32_t 系列外，也提供了无符号 uint32_t 系列： • typedef unsigned 么类型，他只看到你字符串里写的 “ %f” ，会误以为输入的是 float 参数。 • 如果你输入的是 3 这样的 int 类型常量， C 语言不会帮你检测到他和 “ %f” 其实是不匹配的，而是直接把 int 类型的 4 个字节推到栈上作为 printf 的参数，而 printf 却会把这 4 个字节作为浮点来处理。由于浮点的指数位处于高位，但整数是 3 ，导致高位全是 0 ，所以 ams> pars) 来替代。 NULL 的定义为什么是这样的？ • 如果你看过标准库的头文件内容，会看到 NULL 的本质无非是一个宏。那为什么要这样定义呢？ • 可见他在 C++ 中会直接定义为常数 0 ，而 C 语言中却定义为 ((void*)0) ，为什么会区别对待？ • 这是因为 C++ 规定 0 可以代表空指针，为什么要这样规定？这样不是很容易出错吗？ • 因为如果用

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的数据。如果没有，则从内存中读取，并存储到缓存中；如果有，则直接使用缓存中的数据。 • 这样一来，访问的数据量比较小时，就可以自动预先加载到这个更高效的缓存里，然后再开始做运算，从而避免从外部内存读写的超高延迟。缓存的分级结构查看高速缓存大小： a[3] 。缓存在后台默默读取数据的同时， CPU 自己在继续处理 a[0] 的数据。这样等 a[0], a[1] 处理完以后，缓存也刚好读取完 a[2] 了，从而 CPU 不用等待，就可以直接开始处理 a[2] ，避免等待数据的时候 CPU 空转浪费时间。 • 这种策略称之为预取（ prefetch ），由硬件自动识别你程序的访存规律，决定要预取的地址。一般来说只有线性的地址访问规律（包括顺序、了，从而浪费了 2 倍带宽。绕过缓存，直接写入： _mm_stream_si32 • 因此需要把 16 次 float 用 SIMD 指令合并成一次写入，且写入的地址要对齐到 64 字节，才能避免浪费读取的带宽。这样的条件实在有点苛刻，毕竟小彭老师的电脑还不支持 AVX512 。 • 可以用 _mm_stream_si32 指令代替直接赋值的写入，他能够绕开缓存，将一个 4

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

const &operator[](size_t i) const noexcept; vector 容器： operator[] • 值得注意的是， [] 运算符在索引超出数组大小时并不会直接报错，这是为了性能的考虑。 • 如果你不小心用 [] 访问了越界的索引，可能会覆盖掉别的变量导致程序行为异常，或是访问到操作系统未映射的区域导致奔溃。 • int &operator[](size_t noexcept; • int const &operator[](size_t i) const noexcept; vector 容器：构造函数 • 除了先指定大小再一个个构造之外，还可以直接利用初始化列表（ C++11 新特性）在构造时就初始化其中元素的值。 • 例如创建具有 6, 1, 7, 4 四个元素的 vector ： • vector a = {6, 1 vector 对象上。 vector 在移动时指针不会失效，例如： • a = move(b) • 则会把 b 变成空数组， a 指向原来 b 所包含的元素数组，且地址不变。 • 之后即使不直接使用外面的那个临时对象 a ，也可以继续通过 data() 指针来访问数据。 vector 容器：延续生命周期 • 也可以移动到一个全局变量的 vector 对象。 • 这样数组就会一直等到

0 码力 | 90 页 | 4.93 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

译器会直接调用，没有 @PLT 表示未定义对象。减轻了链接器的负担。编译器优化：内联化只有定义在同一个文件的函数可以被内联！否则编译器看不见函数体里的内容怎么内联呢？为了效率我们可以尽量把常用函数定义在头文件里，然后声明为 static 。这样调用他们的时候编译器看得到他们的函数体，从而有机会内联。内联：当编译器看得到被调用函数（ other ）实现的时候，会直接把函数实现贴到调用他的函数（，更高效。 • 都能把等差数列求和优化成 5050 的编译器笑着看着你，说道：还要你提醒吗？ • 所以，如果某“面试官”试图“考考”你 register 和 inline 的所谓“优化技巧”，你直接把小彭老师这两页 ppt ，贴到他脸上即可。 • 明明实验一下就知道的事，还在照着上世纪谭某强教材念。古有纸上谈兵，今有脑内编程。 • 计算机编程又不是量子物理广义相对论，我们每个人都有电脑，做一下实验很容易，可总两个 float ：对齐到 8 字节成功 SIMD 矢量化！三个 float ：对齐到 12 字节矢量化失败，生成了标量的低效代码往 struct 里添加了个根本没有用到的 z ，却直接导致了优化失败！这是为什么？添加一个辅助对齐的变量：对齐到 16 字节追加了一个没有用的 4 字节变量，整个结构体变成 16 字节大小，矢量化反而成功了？？结论：计算机喜欢 2 的整数幂，

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

里只看到 sumto<> 函数的两份声明，从而出错。 • 解决：在看得见 sumto<> 定义的 sumto.cpp 里，增加两个显式编译模板的声明：一般来说，我会建议模板不要分离声明和定义，直接写在头文件里即可。如果分离还要罗列出所有模板参数的排列组合，违背了开 - 闭原则。模板的惰性：延迟编译 • 要证明模板的惰性，只需看这个例子： • 要是编译器哪怕细看了一眼：字符串怎么可能被写入呢？肯定是会出错的。函数也是对象：函数式编程 • 你知道吗？函数可以作为另一个函数的参数！函数也是对象：函数式编程（续） • 而且，这个作为参数的函数也可以有参数！函数式编程：函数作为模板类型 • 甚至可以直接将 func 的类型作为一个模板参数，从而不需要写 void(int) 。 • 这样还会允许函数的参数类型为其他类型，比如 void(float) 。 • 这样 call_twice 会自动对每个不同的如何避免用模板参数 2 ：无捕获的 lambda 可以传为函数指针 • 另外，如果你的 lambda 没有捕获任何局部变量，也就是 [] ，那么不需要用 std::function ，直接用函数指针的类型 int(int) 或者 int(*)(int) 即可。 • 函数指针效率更高一些，但是 [] 就没办法捕获局部变量了（全局变量还是可以的）。 • 最大的好处是可以伺候一些只接受函数指

0 码力 | 82 页 | 12.15 MB | 1 年前
3

共 23 条前往

页

C++高性性能高性能并行编程优化课件 08 11 10 15 16 12 07 13 04 03

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程