专用硬件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

表面对象保障了高效的访存，并且自动判断越界，体现了 GPU 作为图形学专业硬件的能力。 CUDA 纹理对象：封装 • 表面对象访问数组是可读可写的。纹理对象也可以访问数组，不过是只读的。好处是他可以通过浮点坐标来访问，且提供了线性滤波的能力。 • 在核函数中可以通过 tex3D 来读取纹理中的值。 • 之所以纹理是因为 GPU 一开始是渲染图形的专用硬件，会用到一些贴图等，这就是二维的纹理。 • 当输入的浮点坐标不是整数时，由当输入的浮点坐标不是整数时，由 GPU 硬件提供双线性插值（ bilerp ），比手写的高效许多。 • 当然如果是三维数组，那就是三维纹理对象，访问时是提供三线性插值（ trilerp ）的。 CUDA 纹理对象：封装 • 其中 cudaTextureAddressMode 表示采样的坐标超出范围时采取的措施，有以下几种选择： • cudaAddressModeClamp ：超出范围就用边界值代替 py 代码（二维定常流仿真），主要由 k-ye 编写，我学习 GAMES201 后贡献了支持 RK2 和 RK3 的版本。这里我们用高效的 CUDA 纹理对象在 C++ 中重新实现了一遍，利用了硬件的三线性插值实现半拉格朗日（ semi-lagrangian ）对流。对流部分：根据对流后位置重新采样 • 和 k-ye 思路不同的是我先在刚刚的 advect_kernel 算出对流后要采样的位置（

0 码力 | 58 页 | 14.90 MB | 1 年前
3
《深入浅出MFC》2/e

C++ 或Borland C++ 或VisualAge C++。你需要什么软硬件环境一套Windows 95（或Windows NT）操作系统当然是必须的，中英文皆可。此外，你需要一套Visual C++ 32 位版。目前的最新版本是Visual C++ 5.0，也是我使用的版本。深入淺出 MFC 30 硬件方面，只要能跑上述两种操作系统就算过关。内存（RAM）是影响运作速度的主因，多多益善。厂商宣称16MB 因，多多益善。厂商宣称16MB RAM 是一个能够使你工作舒适的数字，但我因此怀疑「舒适」这个字眼的定义。写作本书时我的软硬件环境是： ■ Pentium 133 ■ 96M RAM ■ 2GB 硬盘 ■ 17 寸显示器。别以为显示器和程序设计没有关系。大尺寸屏幕使我们一次看多一点东西，不必在Visual C++ 整合环境所提供的密密麻麻的画面上卷来卷去。 ■ Windows 据结构）进入程序之中。操作系统如何捕捉外围设备（如键盘和鼠标）所发生的事件呢？噢，USER 模块掌管各个外围的驱动程序，它们各有侦测回路。如果把应用程序获得的各种「输入」分类，可以分为由硬件装置所产生的消息（如鼠标移动或键盘被按下），放在系统队列（system queue）中，以及由Windows 系统或其它 Windows 程序传送过来的消息，放在程序队列（application

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

处理完以后，缓存也刚好读取完 a[2] 了，从而 CPU 不用等待，就可以直接开始处理 a[2] ，避免等待数据的时候 CPU 空转浪费时间。 • 这种策略称之为预取（ prefetch ），由硬件自动识别你程序的访存规律，决定要预取的地址。一般来说只有线性的地址访问规律（包括顺序、逆序；连续、跨步）能被识别出来，而如果你的访存是随机的，那就没办法预测。遇到这种突如其来的访存时， CPU ？原来现在操作系统管理内存是用分页（ page ），程序的内存是一页一页贴在地址空间中的，有些地方可能不可访问，或者还没有分配，则把这个页设为不可用状态，访问他就会出错，进入内核模式。 • 因此硬件出于安全，预取不能跨越页边界，否则可能会触发不必要的 page fault 。所以我们选用页的大小，因为本来就不能跨页顺序预取，所以被我们切断掉也无所谓。 • 另外，我们可以用 _mm_alloc 的计算，从而只要计算的延迟小于内存的延迟，延迟就被隐藏起来了，而不必等内存抵达了再算。这就是为什么有些运算量不足 32 次的程序还是会无法达到 mem-bound ，手动预取以后才能达到，就是因为硬件预取预测失败，导致不得不等内存抵达了才能算，导致延迟隐藏失败。隐藏成功： a[0] a[1] a[2] 重新理解 mem-bound ：延迟隐藏 • 之前提到， 1 次浮点读写必须伴随着

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

）不一定就是完美解决方案，要根据实际情况判断。真正的解决： tbb::spin_mutex 其实主要的瓶颈在于 std::mutex 会切换到操作系统内核中去调度，非常低效。而 tbb::spin_mutex 则是基于硬件原子指令的，完全用户态的实现。区别： std::mutex 的陷入等待会让操作系统挂起该线程，以切换到另一个；而 tbb::spin_mutex 的陷入等待是通过不断地 while (locked); SPGrid 操作系统管理内存的最小单位：页（ 4KB ） • 当调用 malloc 时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经 malloc 过的地址区间，则执行实际的内存分配，并标记该段内存为“可的，读写访问其中偏移地址时，会按页的粒度自动分配和释放内存，从而满足稀疏数据结构“按需分配”的需求。且由于分页是硬件自动来做的，比我们软件哈希和指针数组的稀疏更高效，写起来就和普通的二维数组没什么两样，就好像顺序访问。也用不着什么访问者缓存坐标和块指针了，硬件的 TLB 就是我们的访问者缓存，而且超快不需要用户自己写。 • 垃圾回收可用 madvice 提前释放一段页面。

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

扩大在负数部分。有符号整数 vs 无符号整数 • 刚刚说的让 10000000 表示 -1 ， 11111111 表示 -128 的方法就叫做反码表示法。 • 但是这样还有一个问题，那就是硬件电路上，需要完全重新设计，对符号位做一些特殊判断，才能支持有符号整数的加减法，因此如今的计算机都采用了一种更聪明的表示法： • 他们让 11111111 表示 -1 ， 10000000 表示的话，那么小端字节序的存储方式是：大小端之争我们主流的硬件架构如 x86 ， ARM 都采用的小端字节序。非主流的硬件架构如 PowerPC ， MIPS 才用大端字节序。贴近底层的语言，比如 C/C++/Fortran 会采用当前硬件架构的字节序，比如在 x86 上就会变成小端字节序。 Java 这种虚拟机语言会采用大端字节序，因此在小端字节序的硬件上会比较低效，需要额外的字节序转换工作。为了统

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 两个 int32 可以合并为一个 int64 四个 int32 可以合并为一个 __m128 八个 int32 可以合并为一个 __m256 让编译器自动检测当前硬件支持的指令集 -march=native 让编译器自动判断当前硬件支持的指令。老师的电脑支持 AVX 指令集，所以他用了。不过注意这样编译出的程序，可能放到别人不支持 AVX 的电脑上没法运行。数组清零：自动调用标准库的

0 码力 | 108 页 | 9.47 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

B，它们都能解决同一问题，现在需要对比这两个算法的效率。我们最直接的方法就是找一台计算机，运行这两个算法，并监控记录它们的运行时间和内存占用情况。这种评估方式能够反映真实情况，但也存在较大局限性。难以排除测试环境的干扰因素。硬件配置会影响算法的性能表现。例如，在某台计算机中，算法 A 的运行时间比算法 B 短；但在另一台配置不同的计算机中，我们可能得到相反的测试结果。这意味着我们需要在各种机器上进行测试，而这是不现实的。成简单案例的复杂度分析。 2.2. 时间复杂度 2.2.1. 统计算法运行时间运行时间可以直观且准确地反映算法的效率。然而，如果我们想要准确预估一段代码的运行时间，应该如何操作呢？ 1. 确定运行平台，包括硬件配置、编程语言、系统环境等，这些因素都会影响代码的运行效率。 2. 评估各种计算操作所需的运行时间，例如加法操作 + 需要 1 ns，乘法操作 * 需要 10 ns，打印操作需要 5 ns 等。树形结构：树、堆、哈希表，元素存在一对多的关系。 ‧ 网状结构：图，元素存在多对多的关系。 3. 数据结构 hello‑algo.com 38 3.1.2. 物理结构：连续与离散在计算机中，内存和硬盘是两种主要的存储硬件设备。硬盘主要用于长期存储数据，容量较大（通常可达到 TB 级别）、速度较慢。内存用于运行程序时暂存数据，速度较快，但容量较小（通常为 GB 级别）。在算法运行过程中，相关数据都存储在内存中。

0 码力 | 343 页 | 27.39 MB | 1 年前
3
Hello 算法 1.0.0b5 C++版

，它们都能解决同一问题，现在需要对比这两个算法的效率。最直接的方法是找一台计算机，运行这两个算法，并监控记录它们的运行时间和内存占用情况。这种评估方式能够反映真实情况，但也存在较大局限性。一方面，难以排除测试环境的干扰因素。硬件配置会影响算法的性能表现。比如在某台计算机中，算法 A 的运行时间比算法 B 短；但在另一台配置不同的计算机中，我们可能得到相反的测试结果。这意味着我们需要在各种机器上进行测试，统计平均效率，而这是不现实的。题，因为它们非常适合用分治思想进行分析。 2.3 时间复杂度运行时间可以直观且准确地反映算法的效率。如果我们想要准确预估一段代码的运行时间，应该如何操作呢？ 1. 确定运行平台，包括硬件配置、编程语言、系统环境等，这些因素都会影响代码的运行效率。第 2 章复杂度分析 hello‑algo.com 26 2. 评估各种计算操作所需的运行时间，例如加法操作 + 需要 1 ns，乘法操作对一的顺序关系。 ‧ 树形结构：树、堆、哈希表，元素之间是一对多的关系。 ‧ 网状结构：图，元素之间是多对多的关系。 3.1.2 物理结构：连续与离散在计算机中，内存和硬盘是两种主要的存储硬件设备。硬盘主要用于长期存储数据，容量较大（通常可达到 TB 级别）、速度较慢。内存用于运行程序时暂存数据，速度较快，但容量较小（通常为 GB 级别）。第 3 章数据结构 hello‑algo

0 码力 | 377 页 | 30.69 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 （小彭老师推荐方案）先对 a 预留一定的内存，避免频繁扩容影响性能。加速比： 5.98 倍并行筛选 6 使用 tbb::spin_mutex 替代 std::mutex 。 spin_mutex （基于硬件原子指令）会让 CPU 陷入循环等待，而不像 mutex （操作系统提供调度）会让线程进入休眠状态的等待。若上锁的区域较小，可以用轻量级的 spin_mutex 。若上锁的区域很大，则循环等待只会浪费

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 挂起，从而需要通过系统调用，进入内核层，调度到其他线程执行，有很大的开销。 • 可我们只是想要修改一个小小的 int 变量而已，用昂贵的 mutex 严重影响了效率。建议用 atomic ：有专门的硬件指令加持 • 因此可以用更轻量级的 atomic ，对他的 += 等操作，会被编译器转换成专门的指令。 • CPU 识别到该指令时，会锁住内存总线，放弃乱序执行等优化策略（将该指令视为一个同步点

0 码力 | 79 页 | 14.11 MB | 1 年前
3

共 19 条前往

页

C++高性性能高性能并行编程优化课件 09 深入深入浅出MFC 07 10 12 04 Hello 算法 1.0 0b4 0b5 06 05

分类

语言

格式