主线程 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++11 开始的多线程编程 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存，流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业）

0 码力 | 79 页 | 14.11 MB | 1 年前
3
《深入浅出MFC》2/e

CWinApp::InitApplication / 372 CMyWinApp::InitInstance / 374 CFrameWnd::Create 產生主視窗（並註冊視窗類別） / 376 * 奇怪的視窗類別名稱 Afx:b:14ae:6:3e8f / 387 視窗顯示與更新 / 389 類別？ / 423 Document Template 的意義 / 430 Scribble 的 Document/View 設計 / 436 主視窗的誕生 / 438 工具列和狀態列的誕生（Toolbar & Status bar） / 440 滑鼠拖放（Drag and Drop） / 442 所附范例），从第七章开始，分章探讨每一个MFC 应用技术主题。第13 章另有三个程序，示范Multi-View 和Multi-Document 的情况。 14 章~16 章是第二版新增内容，主题分别是MFC 多线程程序设计、Custom AppWizard、以及如何使用Component Gallery 提供的ActiveX controls 和components。第０章你㆒定要知道（導讀） 29

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

点。浮点加法的计算量 • 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU 有 4 核且矢量化成功：区别是浮点的乘法和加法基本是一样速度。 • L1/2/3 read 和 Main RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一二级缓存和三级缓存的大小附近。 • 因此，数据小到装的进二级缓存，则最大带宽就取决于二级缓存的带宽。稍微大一点则只能装到三级缓存，就取决于三级缓存的带宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound ，数据量尽量足够小，如果能装的进缓存就高效了。 L2: 256 KB L3: 12 MB 缓存的工作机制：读 • 缓存中存储的数据结构：

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存，流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行摩尔定律：停止增长了吗？ • 晶体管的密度的确仍在指数增长，但处理器主频却开始停止增长了，甚至有所下降。 • 很长时间之前我们就可以达到 2GHz （ 2001 年 8 月），根据 2003 年的趋势，在 2005 年初我们就应该研发出 10GHz 的芯片。

0 码力 | 116 页 | 15.85 MB | 1 年前
3
现代C++ 教程：高速上手C++11/14/17/20

章并行与并发第 7 章并行与并发 7.1 并行基础 std::thread 用于创建一个执行的线程实例，所以它是一切并发编程的基础，使用时需要包含头文件，它提供了很多基本的线程操作，例如 get_id() 来获取所创建线程的线程 ID，使用 join() 来等待一个线程结束（与该线程汇合）等等，例如： #include #include 为了理解这个特性，我们需要先理解一下在 C++11 之前的多线程行为。试想，如果我们的主线程 A 希望新开辟一个线程 B 去执行某个我们预期的任务，并返回我一个结果。而这时候，线程 A 可能正在忙其他的事情，无暇顾及 B 的结果，所以我们会很自然的希望能够在某个特定的时间获得线程 B 的结果。在 C++11 的 std::future 被引入之前，通常的做法是：创建一个线程 A，在线程 A 里启动任务 B，当准 B，当准备完毕后发送一个事件，并将结果保存在全局变量中。而主函数线程 A 里正在做其他的事情，当需要结果的时候，调用一个线程等待函数来获得执行的结果。而 C++11 提供的 std::future 简化了这个流程，可以用来获取异步任务的结果。自然地，我们很容易能够想象到把它作为一种简单的线程同步手段，即屏障（barrier）。为了看一个例子，我们这里额外使用 std::packaged_t

0 码力 | 83 页 | 2.42 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

我们不考虑韭菜情怀的话不用管，我们只需要指定架构的版本号是多少就行啦。 • 毕竟一个 72 这样一个单调的整数，听起来没有“高大上地致敬科学家们的名字以彰显其高尚人文情怀的超绝境界”吸引投资人嘛。第 1 章：线程与板块三重尖括号里的数字代表什么意思？ • 刚刚说了 CUDA 的核函数调用时需要用 kernel<<<1, 1>>>() 这种奇怪的语法，这里面的数字代表什么意思呢？ • 不妨把 <<<1 时所用 GPU 的线程数量。 • GPU 是为并行而生的，可以开启很大数量的线程，用于处理大吞吐量的数据。获取线程编号 • 可以通过 threadIdx.x 获取当前线程的编号，我们打印一下试试看。 • 这是 CUDA 中的特殊变量之一，只有在核函数里才可以访问。 • 可以看到线程编号从 0 开始计数，打印出了 0 ， 1 ， 2 。这也是我们指定了线程数量为 3 的缘故。获取线程数量 • 还可以用 blockDim.x 获取当前线程数量，也就是我们在尖括号里指定的 3 。 • 可是为什么叫 blockDim ？我觉得应该叫 threadNum 才比较合理？ • 小彭老师也这么觉得，可能是历史遗留下来的问题，就不追究了。线程之上：板块 • CUDA 中还有一个比线程更大的概念，那就是板块（ block ），一个板块可以有多个线程组成。这

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

解决：使用互斥量和原子变量暴力解决方案就是用 std::mutex 避免多个线程同时访问。然而这样会严重影响性能，锁和原子多了，就根本并行不起来。教科书式的解决：二次判断法这样如果 block 已经非空，则可以不用上锁，减少上锁次数。如果 block 为空，则上锁；再次检测是否为空，空则分配内存，非空说明其他线程已经帮我分配好了，直接退出。结果反而还变慢了……所以有时候教科书（如 Concurrency std::mutex 会切换到操作系统内核中去调度，非常低效。而 tbb::spin_mutex 则是基于硬件原子指令的，完全用户态的实现。区别： std::mutex 的陷入等待会让操作系统挂起该线程，以切换到另一个；而 tbb::spin_mutex 的陷入等待是通过不断地 while (locked); 这样一个死循环不断轮询。对于我们高性能计算而言 tbb::spin_mutex 更高效。其实把写入过的块地址缓存起来，可以避免多次访问全局表的开销。缓存在访问者 (accessor) 的成员 map 里。访问者对象被我用 OpenMP 标记为 firstprivate ，意味着这个 map 是线程局部的，因此对他的访问不需要加锁，更快。应用在刚刚的 SNode 系统中 std::unordered_map 不支持 omp parallel for 遍历…… tbb::concurrent_unordered_map

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存，流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业）测试一下加速了多少倍？优化前：优化后：测试结果 SOA + unroll 的方案，比优化前快了 5 倍！并行情况下最快的也是 SOA 。单线程的 SOA + unroll 甚至略微超过了并行版的 AOS ！可见 OpenMP 并非万能膏药，单线程的程序认真优化后一样打败无脑并行。结论： SOA 是针对这个案例最高效的数据排布格式第 7 章： STL 容器 std::vector

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存，流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业）脆简化：一切非基础类型的对象都是浅拷贝，引用计数由垃圾回收机制自动管理。 • 因此，以系统级编程、算法数据结构、高性能计算为主要业务的 C++ ，才发展出了这些思想，并将拷贝 / 移动 / 指针 / 可变性 / 多线程等概念作为语言基本元素存在。这些在我们的业务里面是非常重要的，所以不可替代。 • （试图升华文章中心主旨）扩展阅读关键字 • 限于篇幅，此处放出一些扩展知识供学有余力的同学研究： 1. P-IMPL

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

构造函数会在第一次进入函数的时候调用。 2. 解构函数依然会在 main 退出的时候调用。 3. 如果从未进入过函数（构造函数从未调用过）则 main 退出时也不会调用解构函数。 • 并且即使多个线程同时调用了 func ，这个变量的初始化依然保证是原子的（ C++11 起）。 • 这就是函数静态初始化 (func-static-init) 大法。函数静态初始化可用于“懒汉单例模式” getMyClassInstance() 会在第一次调用时创建 MyClass 对象，并返回指向他的引用。 • 根据 C++ 函数静态变量初始化的规则，之后的调用不会再重复创建。 • 并且 C++11 也保证了不会多线程的危险，不需要手动写 if 去判断是否已经初始化过，非常方便！函数静态初始化和全局静态初始化的配合 • 如果在全局静态初始化（ before_main ）里使用了函数静态初始化（ Helper

0 码力 | 54 页 | 3.94 MB | 1 年前
3

共 24 条前往

页

C++高性性能高性能并行编程优化课件 05 深入深入浅出MFC 07 06 现代教程高速上手 11 14 17 20 08 10 04 02

分类

语言

格式