三维创作 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

用于分配一个三维数组。各维度上的大小通过 cudaExtent 指定，方便起见我们的 C++ 封装类用了 uint3 表示大小。 • GPU 的多维数组有特殊的数据排布来保障访存的高效，和我们 CPU 那样简单地行主序或列主序（如 a[x + nx * y] ）的多维数组不一样。 • 随后可用 cudaMemcpy3D 在 GPU 的三维数组和 CPU 的三维数组之间拷贝数据。一开始是渲染图形的专用硬件，会用到一些贴图等，这就是二维的纹理。 • 当输入的浮点坐标不是整数时，由 GPU 硬件提供双线性插值（ bilerp ），比手写的高效许多。 • 当然如果是三维数组，那就是三维纹理对象，访问时是提供三线性插值（ trilerp ）的。 CUDA 纹理对象：封装 • 其中 cudaTextureAddressMode 表示采样的坐标超出范围时采取的措施，有以下几种选择：投影部分：求速度的散度 • 第一步，如何求出速度场的散度呢？首先速度是一个矢量场，为了 CUDA 对齐方便我们用了 float4 表示三维矢量，因此速度场在 CUDA 看来就是一个元素类型为 float4 的三维数组。其散度则是一个标量场，用元素类型为 float 的三维数组来表示。 • 定义求散度的核函数，首先读取速度场周围六个元素的值，然后上下做差得到散度。投影部分： jacobi 迭代求解压强

0 码力 | 58 页 | 14.90 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

图片解释板块和线程 • 如需总的线程数量： blockDim * gridDim • 如需总的线程编号： blockDim * blockIdx + threadIdx 三维的板块和线程编号 • CUDA 也支持三维的板块和线程区间。 • 只要在三重尖括号内指定的参数改成 dim3 类型即可。 dim3 的构造函数就是接受三个无符号整数（ unsigned int ）非常简单。 <<>> 的简写而已。图片解释三维的板块和线程 • 之所以会把 blockDim 和 gridDim 分三维主要是因为 GPU 的业务常常涉及到三维图形学和二维图像，觉得这样很方便，并不一定 GPU 硬件上是三维这样排列的。 • 三维情况下同样可以获取总的线程编号（扁平化）。 • 如需总的线程数量： blockDim * 循环分块一样的效果，有利于缓存局域性。 • 顺便一提 Taichi 没有用多维的 blockDim ，他统一用一维的网格跨步循环来扁平化高维循环，这就是为什么我们用 Taichi 的 for 处理二维、三维数据的 stencil 时会比较低效。因为他们根本就不考虑循环分块的！胡渊鸣的 Taichi 编程语言： github.com/taichi-dev/taichi 使用共享内存 • 刚刚那样的话对

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评封装好了： parallel_for 面向初学者： parallel_for 基于迭代器区间： parallel_for_each 二维区间上的 for 循环： blocked_range2d 三维区间上的 for 循环： blocked_range3d 所有区间类型第 2 章：缩并与扫描缩并（ reduce ） 1 个线程，依次处理 8 个元素的缩并，花了 7 秒用电量： 1*7=7

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

• 其实操作系统惰性分配的特性，也是 SPGrid （ Sparsely-Paged-Grid ）得以实现的基础，他利用 mmap 分配比机器大得多的内存（比如 2048*2028*1024 的三维网格），然后在里面索引，这样就相当于利用硬件的分页机制实现了稀疏数据结构，既能高效利用内存，随机访问和插桩又特别高效。有兴趣可以研究一下他们的论文，也用了莫顿序增强 TLB 和缓存的局域性，非常精彩。，同学们可以在作业或是自己的项目里随意使用。不要再用 Java 式的二层三层指针了，用 ndarray<2, float> 声明一个二维浮点数组， ndarray<3, int> 声明一个三维整型数组。这里的 ndarray 通过 a(x, y) 来索引，看起来像 Fortran ，但是实际上还是 YX 序，和静态数组的 a[y][x] 一样的，指标出现的顺序并无关紧要。 ……

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

，不会出错，而是会自动把 float 转换成 int 类型。同样地如果输入是 float ，却调用了 get 的话，那么就相当于 vec3f(val) 也就是三个分量都是 val 的三维矢量，同样不会出错。 MaxBoxPrimitive 节点的内部： apply 的定义通过 set_output(“name”, std::move(obj)) 来指定名字为 name 的输出端口对象为

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评

0 码力 | 96 页 | 16.28 MB | 1 年前
3

共 10 条前往

页

C++高性性能高性能并行编程优化课件 09 08 06 07 01 04 03 05 02

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理