运维能力 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评能提升的时代一去不复返了，现在要我们动动手为多核优化一下老的程序，才能搭上摩尔定律的顺风车。神话与现实： 2 * 3GHz < 6GHz • 一个由双核组成的 3GHz 的 CPU 实际上提供了 6GHz 的处理能力，是吗？ • 显然不是。甚至在两个处理器上同时运行两个线程也不见得可以获得两倍的性能。相似的，大多数多线程的应用不会比双核处理器的两倍快。他们应该比单核处理器运行的快，但是性能毕竟不是线性增长。，其中 c 是线程数量封装好了： parallel_for 面向初学者： parallel_for 基于迭代器区间： parallel_for_each 二维区间上的 for 循环： blocked_range2d 三维区间上的 for 循环： blocked_range3d 所有区间类型第 2 章：缩并与扫描缩并（ reduce ） 1 个线程，依次处理 8 个元素的缩并，花了

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

示当前编译所针对的 GPU 的架构版本号是多少。这里是 520 表示版本号是 5.2.0 ，最后一位始终是 0 不用管，我们通常简称他的版本号为 52 就行了。 • 这个版本号是编译时指定的版本，不是运行时检测到的版本。编译器默认就是最老的 52 ，能兼容所有 GTX900 以上显卡。 https://docs.nvidia.com/cuda/cuda-compiler-driver-nvcc/index threadIdx 三维的板块和线程编号 • CUDA 也支持三维的板块和线程区间。 • 只要在三重尖括号内指定的参数改成 dim3 类型即可。 dim3 的构造函数就是接受三个无符号整数（ unsigned int ）非常简单。 • dim3(x, y, z) • 这样在核函数里就可以通过 threadIdx.y 获取 y 方向的线程编号，以此类推。那二维呢？ • 需要二维的话，只需要把方向有大小，就相当于二维了，不会有性能损失。实际上一维的 <<>> 不过是 <<>> 的简写而已。图片解释三维的板块和线程 • 之所以会把 blockDim 和 gridDim 分三维主要是因为 GPU 的业务常常涉及到三维图形学和二维图像，觉得这样很方便，并不一定 GPU 硬件上是三维这样排列的。

0 码力 | 142 页 | 13.52 MB | 1 年前
3
《深入浅出MFC》2/e

的人所需要的一种表明方式。对我而言，以往遗留的许多疑惑，在此都一一得到了解答。最重要的是，您曾经说过，学习MFC 的过程中最重要的莫过于自我审视MFC 程序代码的能力。很高兴地，在我看完本书之后，我确实比以前更有能力来看MFC 源代码了。总之，我为自己能够更深入了解MFC 而要向您说声谢谢。谢谢您为我们写了深入浅出MFC 这本书。我受益匪浅。加拿大. 温哥华. 陈宗泰阁师您的书，真的是越看越「爽」，而且一定要晚上10:00 以后看，哇，那种感觉真是过瘾。桃园Shelly 在书局看到您多本书籍，实在忍不住想告诉您我的想法！我是来谢谢您的。怎么说呢？姑且不论英文能力，看原文书总是没有看中文书来得直接啊！您也知晓的，许多翻译书中的每个中文字都看得懂，但是整段落就是不知他到底在说啥！因此看到书的作者是您，感觉上就是一个品质上的保证，必定二话不说，抱回家啰！虽然眼前用不到，但是翻翻看，大致了解一的programmer 终其一生不会设计一个application framework，这样的蓝图仍可以为你的对象导向观念带来许多面向的帮助。我一直希望，能够为此书发行英文国际版。囿于个人的语文能力以及时间，终未能行。但是看到来自世界各地的华人读者的信函（加拿大、纽西兰、越南、印尼、香港、中国大陆、美国...），也是另一种安慰。在BBS 及Internet News 看到各界对此书的评介，以及对此书内容

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

用于分配一个三维数组。各维度上的大小通过 cudaExtent 指定，方便起见我们的 C++ 封装类用了 uint3 表示大小。 • GPU 的多维数组有特殊的数据排布来保障访存的高效，和我们 CPU 那样简单地行主序或列主序（如 a[x + nx * y] ）的多维数组不一样。 • 随后可用 cudaMemcpy3D 在 GPU 的三维数组和 CPU 的三维数组之间拷贝数据。现了 GPU 作为图形学专业硬件的能力。 CUDA 纹理对象：封装 • 表面对象访问数组是可读可写的。纹理对象也可以访问数组，不过是只读的。好处是他可以通过浮点坐标来访问，且提供了线性滤波的能力。 • 在核函数中可以通过 tex3D 来读取纹理中的值。 • 之所以纹理是因为 GPU 一开始是渲染图形的专用硬件，会用到一些贴图等，这就是二维的纹理。 • 当输入的浮点坐标不是整数时，由当输入的浮点坐标不是整数时，由 GPU 硬件提供双线性插值（ bilerp ），比手写的高效许多。 • 当然如果是三维数组，那就是三维纹理对象，访问时是提供三线性插值（ trilerp ）的。 CUDA 纹理对象：封装 • 其中 cudaTextureAddressMode 表示采样的坐标超出范围时采取的措施，有以下几种选择： • cudaAddressModeClamp ：超出范围就用边界值代替

0 码力 | 58 页 | 14.90 MB | 1 年前
3
Hello 算法 1.0.0b1 C++版

，我也回复了许多读者的评论问题，遇到最多的问题是“如何入门学习算法”。我渐渐也对这个问题好奇了起来。两眼一抹黑地刷题应该是最受欢迎的方式，简单粗暴且有效。然而，刷题就如同玩“扫雷”游戏，自学能力强的同学能够顺利地将地雷逐个排掉，而基础不足的同学很可能被炸的满头是包，并在受挫中步步退缩。通读教材书籍也是常用方法，但对于面向求职的同学来说，毕业季、投递简历、应付笔面试已经占用大部分精力，厚平方阶常见于元素数量与 ? 成平方关系的矩阵、图。 // === File: space_complexity.cpp === /* 平方阶 */ void quadratic(int n) { // 二维列表占用 O(n^2) 空间 vector> numMatrix; 2. 复杂度分析 hello‑algo.com 32 for (int i = 0; i < n; i++) 算法运行中，相关数据都被存储在内存中。下图展示了一个计算机内存条，其中每个黑色方块都包含一块内存空间。我们可以将内存想象成一个巨大的 Excel 表格，其中每个单元格都可以存储 1 byte 的数据，在算法运行时，所有数据都被存储在这些单元格中。系统通过「内存地址 Memory Location」来访问目标内存位置的数据。计算机根据特定规则给表格中每个单元格编号，保证每块内存空间都有独立的内存地

0 码力 | 187 页 | 14.71 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

持。在与读者交流期间，我最常被问的一个问题是“如何入门算法”。逐渐地，我对这个问题产生了浓厚的兴趣。两眼一抹黑地刷题似乎是最受欢迎的方法，简单、直接且有效。然而刷题就如同玩“扫雷”游戏，自学能力强的人能够顺利将地雷逐个排掉，而基础不足的人很可能被炸得满头是包，并在挫折中步步退缩。通读教材也是一种常见做法，但对于面向求职的人来说，毕业论文、投递简历、准备笔试和面试已经消耗了大部分精 ——邓俊辉，清华大学计算机系教授 “如果我当年学数据结构与算法的时候有《Hello 算法》，学起来应该会简单 10 倍！” ——李沐，亚马逊资深首席科学家计算机的出现给世界带来了巨大变革，它凭借高速的计算能力和出色的可编程性，成为了执行算法与处理数据的理想媒介。无论是电子游戏的逼真画面、自动驾驶的智能决策，还是 AlphaGo 的精彩棋局、ChatGPT 的自然交互，这些应用都是算法在计算机上的精妙演绎。靠地求得问题的正确解。 2. 寻求最优解法：同一个问题可能存在多种解法，我们希望找到尽可能高效的算法。也就是说，在能够解决问题的前提下，算法效率已成为衡量算法优劣的主要评价指标，它包括以下两个维度。 ‧ 时间效率：算法运行速度的快慢。 ‧ 空间效率：算法占用内存空间的大小。简而言之，我们的目标是设计“既快又省”的数据结构与算法。而有效地评估算法效率至关重要，因为只有这样，我们

0 码力 | 379 页 | 18.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

核才饱和。 • funcC 用了 6 核才饱和。 • 结论：要想利用全部 CPU 核心，避免 mem-bound ，需要 func 里有足够的计算量。 • 当核心数量越多， CPU 计算能力越强，相对之下来不及从内存读写数据，从而越容易 mem-bound 。 1 2 4 6 8 10 0 50 100 150 200 250 300 350 funcA funcB 做的事情相当于：读 + 写，从而每个元素只需要访问两遍内存。对这种完全 mem-bound 的程序而言就是加速了 2 倍。测试结果可见，能否很好的利用缓存，和程序访问内存的时间局域性有关。案例：一维 jacobi 迭代 • 一些物理仿真中，常用到这种形式的迭代法： • for (i=0...n) b[i] = a[i + 1] + a[i - 1]; // 假装是 jacobi • swap(a • 其实操作系统惰性分配的特性，也是 SPGrid （ Sparsely-Paged-Grid ）得以实现的基础，他利用 mmap 分配比机器大得多的内存（比如 2048*2028*1024 的三维网格），然后在里面索引，这样就相当于利用硬件的分页机制实现了稀疏数据结构，既能高效利用内存，随机访问和插桩又特别高效。有兴趣可以研究一下他们的论文，也用了莫顿序增强 TLB 和缓存的局域性，非常精彩。

0 码力 | 147 页 | 18.88 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

持。在与读者交流期间，我最常被问的一个问题是“如何入门算法”。逐渐地，我对这个问题产生了浓厚的兴趣。两眼一抹黑地刷题似乎是最受欢迎的方法，简单、直接且有效。然而刷题就如同玩“扫雷”游戏，自学能力强的人能够顺利将地雷逐个排掉，而基础不足的人很可能被炸得满头是包，并在挫折中步步退缩。通读教材也是一种常见做法，但对于面向求职的人来说，毕业论文、投递简历、准备笔试和面试已经消耗了大部分精 ——邓俊辉，清华大学计算机系教授 “如果我当年学数据结构与算法的时候有《Hello 算法》，学起来应该会简单 10 倍！” ——李沐，亚马逊资深首席科学家计算机的出现给世界带来了巨大变革，它凭借高速的计算能力和出色的可编程性，成为了执行算法与处理数据的理想媒介。无论是电子游戏的逼真画面、自动驾驶的智能决策，还是 AlphaGo 的精彩棋局、ChatGPT 的自然交互，这些应用都是算法在计算机上的精妙演绎。靠地求得问题的正确解。 2. 寻求最优解法：同一个问题可能存在多种解法，我们希望找到尽可能高效的算法。也就是说，在能够解决问题的前提下，算法效率已成为衡量算法优劣的主要评价指标，它包括以下两个维度。 ‧ 时间效率：算法运行时间的长短。 ‧ 空间效率：算法占用内存空间的大小。简而言之，我们的目标是设计“既快又省”的数据结构与算法。而有效地评估算法效率至关重要，因为只有这样，我们

0 码力 | 379 页 | 18.48 MB | 10 月前
3
Hello 算法 1.0.0b2 C++版

，我也回复了许多读者的评论问题，遇到最多的问题是“如何入门学习算法”。我渐渐也对这个问题好奇了起来。两眼一抹黑地刷题应该是最受欢迎的方式，简单粗暴且有效。然而，刷题就如同玩“扫雷”游戏，自学能力强的同学能够顺利地将地雷逐个排掉，而基础不足的同学很可能被炸的满头是包，并在受挫中步步退缩。通读教材书籍也是常用方法，但对于面向求职的同学来说，毕业季、投递简历、应付笔面试已经占用大部分精力，厚平方阶常见于元素数量与 ? 成平方关系的矩阵、图。 // === File: space_complexity.cpp === /* 平方阶 */ void quadratic(int n) { // 二维列表占用 O(n^2) 空间 vector> numMatrix; 2. 复杂度分析 hello‑algo.com 32 for (int i = 0; i < n; i++) 算法运行中，相关数据都被存储在内存中。下图展示了一个计算机内存条，其中每个黑色方块都包含一块内存空间。我们可以将内存想象成一个巨大的 Excel 表格，其中每个单元格都可以存储 1 byte 的数据，在算法运行时，所有数据都被存储在这些单元格中。系统通过「内存地址 Memory Location」来访问目标内存位置的数据。计算机根据特定规则给表格中每个单元格编号，保证每块内存空间都有独立的内存地

0 码力 | 197 页 | 15.72 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

多读者的评论问题，其中最常见的一个问题是“如何入门学习算法”。我逐渐也对这个问题产生了浓厚的兴趣。两眼一抹黑地刷题似乎是最受欢迎的方法，简单直接且有效。然而，刷题就如同玩“扫雷”游戏，自学能力强的同学能够顺利地将地雷逐个排掉，而基础不足的同学很可能被炸的满头是包，并在挫折中步步退缩。通读教材书籍也是一种常见做法，但对于面向求职的同学来说，毕业季、投递简历、准备笔试面试已经占据了平方阶常见于矩阵和图，元素数量与 ? 成平方关系。 // === File: space_complexity.cpp === /* 平方阶 */ void quadratic(int n) { // 二维列表占用 O(n^2) 空间 vector> numMatrix; for (int i = 0; i < n; i++) { vector tmp; for 据都是以数组的形式构建的。数组是神经网络编程中最常使用的数据结构。 ‧ 数据结构实现：数组可以用于实现栈、队列、哈希表、堆、图等数据结构。例如，邻接矩阵是图的常见表示之一，它实质上是一个二维数组。 4. 数组与链表 hello‑algo.com 55 4.2. 链表内存空间是所有程序的公共资源，排除已被占用的内存空间，空闲内存空间通常散落在内存各处。在上一节中，我们提到存储数

0 码力 | 343 页 | 27.39 MB | 1 年前
3

共 26 条前往

页

C++高性性能高性能并行编程优化课件 06 08 深入深入浅出MFC 09 Hello 算法 1.0 0b1 1.1 07 1.2 简体中文简体中文 0b2 0b4

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

《深入浅出MFC》2/e

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

Hello 算法 1.0.0b1 C++版

Hello 算法 1.1.0 C++ 版

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

Hello 算法 1.2.0 简体中文 C++ 版

Hello 算法 1.0.0b2 C++版

Hello 算法 1.0.0b4 C++版