瓶颈 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

因此，对 fill 这种没有任何计算量，纯粹只有访存的循环体，并行没有加速效果。称为内存瓶颈（ memory-bound ）。 • 而 sine 这种内部需要泰勒展开来计算，每次迭代计算量很大的循环体，并行才有较好的加速效果。称为计算瓶颈（ cpu- bound ）。 • 并行能减轻计算瓶颈，但不减轻内存瓶颈，故后者是优化的重点。浮点加法的计算量 • 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。可以最小化对缓存的污染，但是必须很快被用上。重新理解 mem-bound ：延迟隐藏 • 之前提到， 1 次浮点读写必须伴随着 32 次浮点加法的运算量，否则和只有 0 次加法的耗时没有任何区别，即内存带宽成唯一瓶颈的 mem-bound 。可是按我们理解，“ 1 次读写 +0 次加法”应该会比“ 1 次读写 +8 次加法”快一点点吧，因为 8 次加法尽管比 1 次读写快很多，但是毕竟还是有时间的啊，为什么会几乎没有任何区别？ a[1] a[2] 重新理解 mem-bound ：延迟隐藏 • 之前提到， 1 次浮点读写必须伴随着 32 次浮点加法的运算量，否则和只有 0 次加法的耗时没有任何区别，即内存带宽成唯一瓶颈的 mem-bound 。可是按我们理解，“ 1 次读写 +0 次加法”应该会比“ 1 次读写 +8 次加法”快一点点吧，因为 8 次加法尽管比 1 次读写快很多，但是毕竟还是有时间的啊，为什么会几乎没有任何区别？

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

结果反而还变慢了……所以有时候教科书（如 Concurrency in Action ）不一定就是完美解决方案，要根据实际情况判断。真正的解决： tbb::spin_mutex 其实主要的瓶颈在于 std::mutex 会切换到操作系统内核中去调度，非常低效。而 tbb::spin_mutex 则是基于硬件原子指令的，完全用户态的实现。区别： std::mutex 的陷入等待会让操作系统挂起捕获的访问者模式。实现访问者模式 • 额，总之就是每一层都有一个缓存。第 5 章：量化整型使用 int ：每个占据 4 字节 • 记得我第七课说过，一个简单的循环体往往会导致内存成为瓶颈（ memory- bound ）。 • 右边就是一个很好的例子。使用 int64_t ：每个占据 8 字节 • 如果用更大的数据类型，用时会直接提升两倍！ • 这是因为 i % 2 的计算时间，完全隐藏在内存特别是并行以后，计算量可以被并行加速，而访存却不行。使用 int8_t ：每个占据 1 字节 • 因此我们可以把数据类型变小，这样所需的内存量就变小，从而内存带宽也可以减小！ • 对于右边这种内存瓶颈的循环体，从 4 字节的 int 改成 int8_t ，理论上可以增加 4 倍速度！ • 这就是量化数据类型的思想，把占空间大的数据类型转换成较小的（损失一定精度，换来性能）。 • 因

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

的加速比是物理核心的数量？ • 剧透：因为本例中 reduce 是内存密集型， for 是计算密集型。 • 超线程对 reduce 这种只用了简单的加法，瓶颈在内存的算法起了作用。 • 而本例中 for 部分用了 std::sin ，需要做大量数学运算，因此瓶颈在 ALU 。 • 这里卖个关子，欲知后事如何，请待下集揭晓！更专业的性能测试框架： Google benchmark • 手动计算时间差有点太硬核了，而且只运简单粗暴并行 for 加速比： 3.16 倍很不理想，为什么？很简单，循环体太大，每跑一遍指令缓存和数据缓存都会重新失效一遍。且每个核心都在读写不同地方的数据，不能很好的利用三级缓存，导致内存成为瓶颈。拆分为三个 for 加速比： 3.47 倍解决了指令缓存失效问题，但是三次独立的 for 循环每次结束都需要同步，一定程度上妨碍了 CPU 发挥性能；而且每个 step 后依然写回了数组，数据缓存没法充分利用从串行到并行，从来就没有什么万能膏药。 • CPU 上的并行尚且如此，何况 GPU 。 • 熟悉原理、反复实验，才能优化出好程序。 • 本课仅入门，深入可以看 Pro TBB 这本书。 • 优化重点在于程序的瓶颈部分，不用在小细节上浪费精力。如果有个 O(n²) 的循环体，则只看他，并无视一旁的 O(n) 循环体。小彭老师锐评时间比如刚刚例子：并行筛选 GPU 必须 parallel_scan

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

• 因此对于简单的分支，完全可以不考虑优化，交给编译器自动优化掉。 • 一般只需要把 if-else 改成三目运算符 ?: 编译器就能成功识别了（见开头的例子）。 • 建议只有当性能遇到瓶颈时，再去针对性对 “热代码”优化，而不是一股脑儿全部改成无分支，影响可读性。 “ 妙用加减乘”的无分支优化是万能的吗？ • return x >= 0 ? sqrt(x) : 0; • 能不能优化成：

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

因为其中某个线程有可能因为在等待内存数据的抵达，这时大可以切换到另一个线程继续执行计算任务，等这个线程陷入内存等待时，原来那个线程说不定就好了呢？（记得上节课说过内存延迟是阻碍 CPU 性能提升的一大瓶颈， GPU 也是如此。 CPU 解决方案是超线程技术，一个物理核提供两个逻辑核，当一个逻辑核陷入内存等待时切换到另一个逻辑核上执行，避免空转。 GPU 的解决方法就是单个 SM 执行很多个线程，然后在遇

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 5 条前往

页

C++高性性能高性能并行编程优化课件 07 10 06 08

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程