智能运维 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

示当前编译所针对的 GPU 的架构版本号是多少。这里是 520 表示版本号是 5.2.0 ，最后一位始终是 0 不用管，我们通常简称他的版本号为 52 就行了。 • 这个版本号是编译时指定的版本，不是运行时检测到的版本。编译器默认就是最老的 52 ，能兼容所有 GTX900 以上显卡。 https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index threadIdx 三维的板块和线程编号 • CUDA 也支持三维的板块和线程区间。 • 只要在三重尖括号内指定的参数改成 dim3 类型即可。 dim3 的构造函数就是接受三个无符号整数（ unsigned int ）非常简单。 • dim3(x, y, z) • 这样在核函数里就可以通过 threadIdx.y 获取 y 方向的线程编号，以此类推。那二维呢？ • 需要二维的话，只需要把方向有大小，就相当于二维了，不会有性能损失。实际上一维的 <<>> 不过是 <<>> 的简写而已。图片解释三维的板块和线程 • 之所以会把 blockDim 和 gridDim 分三维主要是因为 GPU 的业务常常涉及到三维图形学和二维图像，觉得这样很方便，并不一定 GPU 硬件上是三维这样排列的。

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评，其中 c 是线程数量封装好了： parallel_for 面向初学者： parallel_for 基于迭代器区间： parallel_for_each 二维区间上的 for 循环： blocked_range2d 三维区间上的 for 循环： blocked_range3d 所有区间类型第 2 章：缩并与扫描缩并（ reduce ） 1 个线程，依次处理 8 个元素的缩并，花了，需要做大量数学运算，因此瓶颈在 ALU 。 • 这里卖个关子，欲知后事如何，请待下集揭晓！更专业的性能测试框架： Google benchmark • 手动计算时间差有点太硬核了，而且只运行一次的结果可能不准确，最好是多次运行取平均值才行。 • 因此可以利用谷歌提供的这个框架。 • 只需将你要测试的代码放在他的 • for (auto _: bm) • 里面即可。他会自动决定要重复多少次，

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评限于篇幅，其实构造函数还完全没讲完…… 下一讲继续完善我们刚才发明的 Vector 类！也会详解 && 到底有哪些意思…… 来学智能指针压压惊 • 如果构造函数全家桶搞得你晕头转向了，那让我们来点（相对）简单的作为饭后甜点吧！ C++98 ：令人头疼的内存管理 • 在没有智能指针的 C++ 中，我们只能手动去 new 和 delete 指针。这非常容易出错，一旦马虎的程序员忘记释放指针，就前，提前通过 p.get() 获取原始指针：解决方案：提前获取原始指针（续） • 不过你得保证 raw_p 的存在时间不超过 p 的生命周期，否则会出现危险的空悬指针。比如右边这样：更智能的指针： shared_ptr • 使用起来很困难的原因，在于 unique_ptr 解决重复释放的方式是禁止拷贝，这样虽然有效率高的优势，但导致使用困难，容易犯错等。 • 相比之下，牺牲效率换来自由度的

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

字节分块的效果拔群，但还是比顺序访问慢一些，为什么？明明没有浪费带宽了？缓存行预取技术：吃着一碗饭的同时，先喊妈妈烧下一碗饭 • 其实，当程序顺序访问 a[0], a[1] 时， CPU 会智能地预测到你接下来可能会读取 a[2] ，于是会提前给缓存发送一个读取指令，让他读取 a[2] 、 a[3] 。缓存在后台默默读取数据的同时， CPU 自己在继续处理 a[0] 的数据。这样等做的事情相当于：读 + 写，从而每个元素只需要访问两遍内存。对这种完全 mem-bound 的程序而言就是加速了 2 倍。测试结果可见，能否很好的利用缓存，和程序访问内存的时间局域性有关。案例：一维 jacobi 迭代 • 一些物理仿真中，常用到这种形式的迭代法： • for (i=0...n) b[i] = a[i + 1] + a[i - 1]; // 假装是 jacobi • swap(a • 其实操作系统惰性分配的特性，也是 SPGrid （ Sparsely-Paged-Grid ）得以实现的基础，他利用 mmap 分配比机器大得多的内存（比如 2048*2028*1024 的三维网格），然后在里面索引，这样就相当于利用硬件的分页机制实现了稀疏数据结构，既能高效利用内存，随机访问和插桩又特别高效。有兴趣可以研究一下他们的论文，也用了莫顿序增强 TLB 和缓存的局域性，非常精彩。

0 码力 | 147 页 | 18.88 MB | 1 年前
3
现代C++ 教程：高速上手C++11/14/17/20

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 第 5 章智能指针与内存管理 52 5.1 RAII 与引用计数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ] 捕获一系列变量 • [&] 引用捕获, 让编译器自行推导引用列表 • [=] 值捕获, 让编译器自行推导值捕获列表 4. 表达式捕获这部分内容需要了解后面马上要提到的右值引用以及智能指针上面提到的值捕获、引用捕获都是已经在外层作用域声明的变量，因此这些捕获方式捕获的均为左值，而不能捕获右值。 C++14 给与了我们方便，允许捕获的成员用任意的表达式进行初始化，这就允许了右值的捕获，被 std::variant const & v) { std::visit([&](auto && x){ s << x;}, v); return s; } 51 总结第 5 章智能指针与内存管理这样我们就能： int i = 1; std::cout << tuple_index(t, i) << std::endl; 元组合并与遍历还有一个常见的需求就是合并两个元组，这可以通过

0 码力 | 83 页 | 2.42 MB | 1 年前
3
面向亿行 C／C++ 代码的静态分析系统设计及实践-肖枭

覆盖率，和事后复盘并不够  有经验的程序员也会犯错  对代码提要求很难监督落实  测试更多是验证功能，很难检测编码缺陷  代码的快速变化使质量更难管生产质量是责任靠运维和事后复盘善后够吗？  静态分析工具：半智能的代码分析机器人  静态分析辅助代码评审自动化工具+流程才是未来 Bug! Thx! Bug!  投入大  KPI不痛不痒  使用主体和责任主体不一致大多数开发人员眼中的静态分析工具检查逻辑问题好，但耗时长还挺多误报，想用而不敢用  编译器里的Errors and warnings  自带静态分析的语言如Typescript, Rust  IDE里的智能提示  代码混淆和美化  代码交叉索引  Eclipse等IDE中的一键重构  App市场的审核成功静态分析应用代码评审中的静态分析针对该提交代码片段自动触发分析发现问题，拒绝代码合并

0 码力 | 39 页 | 6.88 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

10 倍！” ——李沐，亚马逊资深首席科学家计算机的出现给世界带来了巨大变革，它凭借高速的计算能力和出色的可编程性，成为了执行算法与处理数据的理想媒介。无论是电子游戏的逼真画面、自动驾驶的智能决策，还是 AlphaGo 的精彩棋局、ChatGPT 的自然交互，这些应用都是算法在计算机上的精妙演绎。事实上，在计算机问世之前，算法和数据结构就已经存在于世界的各个角落。早期的算法相对简单，例如古靠地求得问题的正确解。 2. 寻求最优解法：同一个问题可能存在多种解法，我们希望找到尽可能高效的算法。也就是说，在能够解决问题的前提下，算法效率已成为衡量算法优劣的主要评价指标，它包括以下两个维度。 ‧ 时间效率：算法运行速度的快慢。 ‧ 空间效率：算法占用内存空间的大小。简而言之，我们的目标是设计“既快又省”的数据结构与算法。而有效地评估算法效率至关重要，因为只有这样，我们 com 22 图 2‑2 嵌套循环的流程框图在这种情况下，函数的操作数量与 ?2 成正比，或者说算法运行时间和输入数据大小 ? 成“平方关系”。我们可以继续添加嵌套循环，每一次嵌套都是一次“升维”，将会使时间复杂度提高至“立方关系”“四次方关系”，以此类推。 2.2.2 递归递归（recursion）是一种算法策略，通过函数调用自身来解决问题。它主要包含两个阶段。 1. 递：程序

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

10 倍！” ——李沐，亚马逊资深首席科学家计算机的出现给世界带来了巨大变革，它凭借高速的计算能力和出色的可编程性，成为了执行算法与处理数据的理想媒介。无论是电子游戏的逼真画面、自动驾驶的智能决策，还是 AlphaGo 的精彩棋局、ChatGPT 的自然交互，这些应用都是算法在计算机上的精妙演绎。事实上，在计算机问世之前，算法和数据结构就已经存在于世界的各个角落。早期的算法相对简单，例如古靠地求得问题的正确解。 2. 寻求最优解法：同一个问题可能存在多种解法，我们希望找到尽可能高效的算法。也就是说，在能够解决问题的前提下，算法效率已成为衡量算法优劣的主要评价指标，它包括以下两个维度。 ‧ 时间效率：算法运行时间的长短。 ‧ 空间效率：算法占用内存空间的大小。简而言之，我们的目标是设计“既快又省”的数据结构与算法。而有效地评估算法效率至关重要，因为只有这样，我们 com 22 图 2‑2 嵌套循环的流程框图在这种情况下，函数的操作数量与 ?2 成正比，或者说算法运行时间和输入数据大小 ? 成“平方关系”。我们可以继续添加嵌套循环，每一次嵌套都是一次“升维”，将会使时间复杂度提高至“立方关系”“四次方关系”，以此类推。 2.2.2 递归递归（recursion）是一种算法策略，通过函数调用自身来解决问题。它主要包含两个阶段。 1. 递：程序

0 码力 | 379 页 | 18.48 MB | 10 月前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）温馨提示： 1. 会用到第二讲（ RAII 与智能指针）里的知识 2. 课件中一部分代码是基于 C++17 的个人认为， C++11 中很多特性，其实可以看做是为了支持多线程而顺带引入的……如 chrono 、移动、 lambda 、 RAII……

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

strcmp(a, b) 判断两者相等。 • 因此 string 也有一个成员函数 compare ，他也是返回 -1 、 1 、 0 表示大小关系。此外， C++20 中引入了 <=> 这个万能比较运算符，意在取代 compare 成为标准，不过这个更加强类型一点。 • 总之， a == b 和 !a.compare(b) 等价。 C++20 新增： starts_with 和 ends_with string 面对的都是 char ， wchar_t 这种比较小的类型，且用户常用的字符串往往比较短很容易放进 15 字节的局部栈空间里；然而 vector 面对的往往是比较大的数据结构，有时还有智能指针， std::thread 这种具有非平凡构造 / 析构函数的类型。对 vector 来说保障 RAII 的安全更重要，所以没有冒险优化。 string 的 append 实现 • append

0 码力 | 162 页 | 40.20 MB | 1 年前
3

共 25 条前往

页

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

现代C++ 教程：高速上手C++11/14/17/20

面向亿行 C／C++ 代码的静态分析系统设计及实践-肖枭

Hello 算法 1.1.0 C++ 版

Hello 算法 1.2.0 简体中文 C++ 版

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串