小部件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

函数在读取的时候抛出异常，写入的时候又默默创建。 • 例如：一个同学问小彭老师在干嘛？ • 小彭老师说“我在吃答辩。”那么同学认为这个答辩指的是三体动画，小彭老师在看三体动画。而不会认为小彭老师真的在吃答辩。 • 小彭老师说“我在拉答辩。”那么同学认为这个答辩指的是答辩（物理），小彭老师在上厕所。而不会认为小彭老师在制作三体动画。 • 所以这位同学是人类思维，相当于 Python Python 的精分 API 。而如果另一个同学是硬核的计算机思维，相当于 C++ 的一视同仁 API ，他会以为小彭老师真的在吃答辩。 • 这是通常来说，不过万一小彭老师真的这么重口味在吃答辩呢？要怎么传达这个信息？ C++ 一视同仁的接口就能处理这种罕见的情况，不过 Python 用一些 if 语句套一套一样可以。深入理解 Python 中 [] 能自动区分是读是写的原理 • 写入要创建元 C++ 不同， Java 放弃了花里胡哨的运算符重载，索性都采用成员函数 get put 来表示，非常明确。主要是为了把 get 和 put 作为接口函数，可以对应多个具体实现。错误示范 • 小彭老师说过，读取必须用 at 。 • 而这位同学却用了 [] 来读取 items 里的值。 • 乍看之下好像没错，运行结果也是正确的，但这只是碰巧你的 items 里存在 “ hello” 而已，

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

scanf(“%10s”, str); • int size = 1000; • int *arr = (int *)malloc(size); • 如果你没看出来（哪怕是其中一个），那就要好好上小彭老师的课哦！字节（ byte ）和位（ bit ）有什么区别 • 众所周知，计算机是二进制的，存储的实际上是一个个 0 和 1 。 • 每个存储 0 或 1 的空间称为一个位（ bit ），一位可以存储 65536 字节，那所谓的内存地址实际上就是一个从 0 到 65535 范围的整数，也就是两个字节组成的字。 • 处理器去读写内存的时候靠的是寄存器提供的地址，因此寄存器的大小（也就是字的大小）决定了他能读写的内存大小，例如： • 由于 16 位计算机的寄存器只能存储 16 位，他只能访问 65536 字节（ 64 KB ）的内存。 • 由于 32 位计算机的寄存器只能存储 32 位，他只能访问 sizeof(T) 获取 T 类型的字节数。实验：不同大小之间的整数互转 • C 语言可以用 (short)x 的形式来强制把任意类型的 x 转换为 short 类型。 • 如果源类型比目的类型小，那么会根据目的类型是有符号还是无符号的，自动扩展他的符号位。 • 例如 char 类型的 -128 是 10000000 • 强制转换为 short 后是 11111111 10000000

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

• 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU 有 4 核且矢量化成功： 1 次浮点读写 ≈ 128 Main RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一点内存的延迟了，但在 6 个物理核心上并行加速后，。 1 2 4 6 8 10 0 50 100 150 200 250 300 350 funcA funcB funcC 内存信息查看工具： dmidecode • 可以看到小彭老师电脑上插了 2 块内存，频率都是 2667 MHz ，数据的宽度是 64 位（ 8 字节）。 • 理论极限带宽 = 频率 * 宽度 * 数量 2667*16*2=42672 MB/s •

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++ 系列课：字符与字符串 by 小彭老师（ @archibate ）课件 & 代码： https://github.com/parallel101/course 上期回顾： https://www.bilibili.com/video/BV1m34y157wb 课程安排 1. vector 容器初体验 & 迭代器入门 (BV1qF411T7sd) 2. 你所不知道的程序收到 ^C 以后，就直接终止退出了。关于控制字符的一个冷知识 • 除此之外，因为 ^D 是“传输终止符”，还可以在控制台输入 Ctrl+D 来关闭标准输入流，终止正在读取他的程序。 • 小彭老师常用 Ctrl+D 来快速关闭一个 shell （和输入 exit 命令的效果一样）。 • 以及按 Ctrl+I 的效果其实和 Tab 键一样，按 Ctrl+J 的效果和 Enter 键一样，按 namespace std; 太危险了不想用他。 • 可以只用 using namespace std::literials; • 这个特殊的名字空间里包含了所有的 operator“” 函数。小彭老师锐评：何谓“键盘压力” • 高情商：键盘压力，指的是程序员敲击键盘时产生的心理压力。 • 低情商：键盘压力，指的是 rust 键盘侠对 cpp 标准委员会的压力。 • rust 键盘侠曰：我们有

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

eatTwice ，就可以对猫和狗都适用，实现代码的复用（ dont-repeat-yourself ），也让函数的作者不必去关注点从猫和狗的其他具体细节，只需把握住他们统一具有的“吃”这个接口。小知识： shared_ptr 如何深拷贝？浅拷贝：深拷贝：思考：能不能把拷贝构造函数也作为虚函数？ • 现在我们的需求有变，不是去对同一个对象调用两次 eatTwice ，而是先把对象复制一份把对象就地拷贝到另一个地址的对象去。 • 同理还有 move_assign 对应于移动赋值， move_clone 对应于移动构造，全了！ • 就这样把 C++ 的四大特殊函数变成了多态的虚函数，这就是被小彭老师称为自动虚克隆 (auto-vitrual-clone) 的大法。 Zeno 中对 OpenVDB 对象的封装 • 开源的体积数据处理库 OpenVDB 中有许多“网格”的类（可以理解为多维数组），例如： • 他们还有一些成员函数，这些函数可能是虚函数，也可能不是。 • 如何在不知道 OpenVDB 每个类具体继承关系的情况下，实现我们想要的继承关系，从而实现封装和代码重用？简单，只需用一种被小彭老师称为类型擦除 (type-erasure) 的大法。类型擦除：还是以猫和狗为例 • 例如右边的猫和狗类，假设这两个类是某个第三方库里写死的，这个第三方库的作者可能没上过《面向对象程序设计》，居然没有定义一

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

针对不同的架构，使用不同的代码通过 CMake 设置架构版本号 • 可以用 CMAKE_CUDA_ARCHITECTURES 这个变量，设置要针对哪个架构生成 GPU 指令码。 • 小彭老师的显卡是 RTX2080 ，他的版本号是 75 ，因此最适合他用的指令码版本是 75 。 • 如果不指定，编译器默认的版本号是 52 ，他是针对 GTX900 系列显卡的。 • 不过 11 废除，因此本课程要求同学有 GTX900 及以上显卡。如果需要在老显卡上运行的话，可以看下面那个链接，查一下你的显卡对应的版本号是多少，然后在 CMake 里设置个一样的，应该就能用了。小彭老师每日锐评 • 顺便， Pascal 、 Turing 、 Ampere 什么的高大上架构名，那个是老黄拿来营销用的。 • 我们不考虑韭菜情怀的话不用管，我们只需要指定架构的版本号是多少就行啦。获取线程数量 • 还可以用 blockDim.x 获取当前线程数量，也就是我们在尖括号里指定的 3 。 • 可是为什么叫 blockDim ？我觉得应该叫 threadNum 才比较合理？ • 小彭老师也这么觉得，可能是历史遗留下来的问题，就不追究了。线程之上：板块 • CUDA 中还有一个比线程更大的概念，那就是板块（ block ），一个板块可以有多个线程组成。这就是为什么刚刚获取线程数量的变量用的是

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

CMake 。 • 现代 CMake 和古代 CMake 相比，使用更方便，功能更强大。为什么要学习现代 CMake ？现代 CMake ：古代 CMake ：第 0 章：命令行小技巧传统的 CMake 软件构建 / 安装方式 • mkdir build • cd build • cmake .. • make -j4 • sudo make install • MinSizeRel: `-Os -DNDEBUG` 4. RelWithDebInfo: `-O2 -g -DNDEBUG` • 此外，注意定义了 NDEBUG 宏会使 assert 被去除掉。小技巧：设定一个变量的默认值如何让 CMAKE_BUILD_TYPE 在用户没有指定的时候为 Release ，指定的时候保持用户指定的值不变呢。就是说 CMake 默认情况下 CMAKE_BUILD_TYPE project 函数里对编译器进行一些检测，看看他能不能支持 C++17 的特性。 https://crascit.com/2015/03/28/enabling-cxx11-in-cmake/ 常见误区：小彭老师，我手动添加 -std=c++17 行不行？ • 请勿直接修改 CMAKE_CXX_FLAGS 来添加 -std=c++17 （你在百度 CSDN 学到的用法）。 • 请使用 CMake

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

size_t 在 64 位系统上相当于 uint64_t size_t 在 32 位系统上相当于 uint32_t 从而不需要用 movslq 从 32 位符号扩展到 64 位，更高效。而且也能处理数组大小超过 INT_MAX 的情况，推荐始终用 size_t 表示数组大小和索引。浮点作为参数和返回： xmm 系列寄存器 xmm0 = xmm0 + xmm1 参数分别通过 xmm0 ， xmm1 结论：在现代编译器的高强度优化下，加不加 inline 无所谓编译器不是傻子，只要他看得见 other 的函数体定义，就会自动内联内联与否和 inline 没关系，内联与否只取决于是否在同文件，且函数体够小要性能的，定义在头文件声明为 static 即可，没必要加 inline 的 static 纯粹是为了避免多个 .cpp 引用同一个头文件造成冲突，并不是必须 static 才内联如果你不确定某效。 • 都能把等差数列求和优化成 5050 的编译器笑着看着你，说道：还要你提醒吗？ • 所以，如果某“面试官”试图“考考”你 register 和 inline 的所谓“优化技巧”，你直接把小彭老师这两页 ppt ，贴到他脸上即可。 • 明明实验一下就知道的事，还在照着上世纪谭某强教材念。古有纸上谈兵，今有脑内编程。 • 计算机编程又不是量子物理广义相对论，我们每个人都有电脑，做一下实验很容易，可总

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

CMake 中使用： find_package CMake 中使用：作为子模块这个什么“勾勾”公司非要默认开启 tests ，导致需要去寻找 googletest ，妨碍了我们作为子模块使用。小彭老师单方面宣布：一切默认开启 tests ， docs 构建目标的 cmake 项目，有病啊！你妨碍别人作为子模块用你的项目。没错说的就是你 OpenSim ，张心欣当时浪费好多时间伺候这个沙雕库。加速比： 5.94 倍并行筛选 4 如果需要筛选后的数据是连续的，即 a 是个 std::vector ，这时就需要用 mutex 锁定，避免数据竞争。加速比： 4.92 倍并行筛选 5 （小彭老师推荐方案）先对 a 预留一定的内存，避免频繁扩容影响性能。加速比： 5.98 倍并行筛选 6 使用 tbb::spin_mutex 替代 std::mutex 。 spin_mutex std::shared_mutex 。 https://www.zhihu.com/question/38857029 并行筛选 7 彻底避免了互斥量，完全通过预先准备好的大小，配合 atomic 递增索引批量写入。同时用小彭老师拍脑袋想到的 pod 模板类，使得 vector 的 resize 不会零初始化其中的值。加速比： 6.26 倍并行筛选 8 （不推荐）而是用 std::vector 作为 parallel_reduce

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

C++ 标准库系列课 - 你所不知道的 set 容器 by 小彭老师（ @archibate ）课件 & 代码： https://github.com/parallel101/course 上期回顾： https://www.bilibili.com/video/BV1qF411T7sd 课程安排 1. vector 容器初体验 & 迭代器入门 (BV1qF411T7sd) 2. 你所不知道的 com/w/cpp/iterator/distance 学有余力的同学可以看一下 glibc 源码学有余力的同学可以看一下 glibc 源码学有余力的同学可以看一下 glibc 源码顺便一提：小彭老师打印任意 STL 容器的黑科技向 set 中插入元素 • 可以通过调用 insert 往 set 中添加一个元素。 • 用户无需关心插入的位置，例如插入元素 3 时， set 会元素。用法举例： • set.erase(set.find(x)) 会删除集合中值为 x 的元素，和 set.erase(x) 等价。 • set.erase(set.begin()) 会删除集合中最小的元素（因为 set 具有自动排序的特性，排在最前面的元素一定是最小的那个） • set.erase(std::prev(set.end())) 会删除集合中最大的元素（因为自动排序的特性，排在最后面的元素一定是最大的那个）

0 码力 | 83 页 | 10.23 MB | 1 年前
3

共 24 条前往

页

C++高性性能高性能并行编程优化课件 17 12 07 15 08 11 04 06 14

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器