统一采集 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

cudaDeviceSynchronize() 等价！因此前面的 cudaDeviceSynchronize() 实际上可以删掉了。统一内存地址技术（ Unified Memory ） • 还有一种在比较新的显卡上支持的特性，那就是统一内存 (managed) ，只需把 cudaMalloc 换成 cudaMallocManaged 即可，释放时也是通过 cudaFree 主机内存 (host) ： malloc 、 free • 设备内存 (device) ： cudaMalloc 、 cudaFree • 统一内存 (managed) ： cudaMallocManaged 、 cudaFree • 如果我没记错的话，统一内存是从 Pascal 架构开始支持的，也就是 GTX9 开头及以上。 • 虽然方便，但并非完全没有开销，有条件的话还是尽量用分离的设备内存和主机内存吧。个连续的 int 数据排列在内存中，而 arr 则是指向其起始地址。然后把 arr 指针传入 kernel ，即可在里面用 arr[i] 访问他的第 i 个元素。 • 然后因为我们用的统一内存 (managed) ，所以同步以后 CPU 也可以直接读取。多个线程，并行地给数组赋值 • 刚刚的 for 循环是串行的，我们可以把线程数量调为 n ，然后用 threadIdx

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

分别在各自的目录下有自己的 CMakeLists.txt 。二、根项目的 CMakeLists.txt 配置 • 在根项目的 CMakeLists.txt 中，设置了默认的构建模式，设置了统一的 C++ 版本等各种选项。然后通过 project 命令初始化了根项目。 • 随后通过 add_subdirectory 把两个子项目 pybmain 和 biology 添加进来（顺序）中用到了其他模块（ Animal ）的类或函数，则需要在新模块（ Carer ）的头文件和源文件中都导入其他模块（ Animal ）的头文件。 • 注意不论是项目自己的头文件还是外部的系统的头文件，请全部统一采用 < 项目名 / 模块名 .h> 的格式。不要用 “模块名 .h” 这种相对路径的格式，避免模块名和系统已有头文件名冲突。十、依赖其他模块但不解引用，则可以只前向声明不导入头文件 • 而且某些库都具有多个子动态库，例如 Qt 就有 libQt5Core.so 、 libQt5Widgets.so 、 libQt5Network.so 。因此 CMake 要求所有第三方库作者统一包装成一个 Qt5Config.cmake 文件包含所有相关信息（类似于 nodejs 的 package.json ），比你单独的一个个去找动态库文件要灵活的多。 • 包配置文件由第三方库的作者（

0 码力 | 56 页 | 6.87 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

--build 指令，不同平台，统一命令！ • cmake -B build • cmake --build build -j4 • sudo cmake --build build --target install • cmake -B build 免去了先创建 build 目录再切换进去再指定源码目录的麻烦。 • cmake --build build 统一了不同平台（ Linux 上会调用进一步： GLOB_RECURSE 了解一下！能自动包含所有子文件夹下的文件 GLOB_RECURSE 的问题：会把 build 目录里生成的临时 .cpp 文件也加进来解决方案：要么把源码统一放到 src 目录下，要么要求使用者不要把 build 放到和源码同一个目录里，我个人的建议是把源码放到 src 目录下。第 2 章：项目配置变量 CMAKE_BUILD_TYPE 构建的类型，调试模式还是发布模式自创的，绕开了编译器和操作系统的各种繁琐规则，保证了跨平台统一性。在自己的项目中，我推荐全部用对象库 (OBJECT) 替代静态库 (STATIC) 避免跨平台的麻烦。对象库仅仅作为组织代码的方式，而实际生成的可执行文件只有一个，减轻了部署的困难。静态库的麻烦： GCC 编译器自作聪明，会自动剔除没有引用符号的那些对象对象库可以绕开编译器的不统一：保证不会自动剔除没引用到的对象文件虽然动

0 码力 | 166 页 | 6.54 MB | 1 年前
3
现代C++ 教程：高速上手C++11/14/17/20

之间的区别）。在编写 C++ 时，也应该尽可能的避免使用诸如 void* 之类的程序风格。而在不得不使用 C 时，应该注意使用 extern "C" 这种特性，将 C 语言的代码与 C++ 代码进行分离编译，再统一链接这种做法，例如： // foo.h #ifdef __cplusplus extern "C" { #endif int add(int x, int y); #ifdef __cplusplus 0; } 应先使用 gcc 编译 C 语言的代码： gcc -c foo.c 编译出 foo.o 文件，再使用 clang++ 将 C++ 代码和 .o 文件链接起来（或者都编译为 .o 再统一链接）： 10 进一步阅读的参考文献第 1 章迈向现代 C++ clang++ 1.1.cpp foo.o -std=c++2a -o 1.1 当然，你可以使用 Makefile 来编译上面的代码：首先把初始化列表的概念绑定到类型上，称其为 std::initializer_list，允许构造函数或其他函数像参数一样使用初始化列表，这就为类对象的初始化与普通数组和 POD 的初始化方法提供了统一的桥梁，例如： #include #include #include class MagicFoo { public:

0 码力 | 83 页 | 2.42 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

标准化的类型： stdint.h • 而实际上，尽管主流操作系统上 int 都是 32 位的， C 语言标准并没有规定 int 就是 32 位的。 • int 甚至可以是 16 位的！只不过主流操作系统一致认为是 32 位的而已，并不是标准所保证的。 • 为了解决不同操作系统上对类型定义混乱的问题， C 语言标准引入了 stdint.h 这个头文件。 • 他里面包含一系列类型别名 (typedef) C/C++/Fortran 会采用当前硬件架构的字节序，比如在 x86 上就会变成小端字节序。 Java 这种虚拟机语言会采用大端字节序，因此在小端字节序的硬件上会比较低效，需要额外的字节序转换工作。为了统一，互联网标准规定，协议包头中传输的数据类型（但凡是多个字节组成的）必须是大端字节序。假如 x=0x01234567 ，则： int 类型对应的指针类型： int* • 指针，顾名思义，就是“指向”一个内存中的变量。 1 ； sizeof(short) = 2 • sizeof(size_t) = 8 （在 64 位系统上） • sizeof(size_t) = 4 （在 32 位系统上） • 结论：我们以后统一用这个形式： • T *a = (T*)malloc(n * sizeof(T)) • 就能分配长度为 n 的任意类型 T 的数组了。 • 当然别忘了最后通过 free(a) 释放。如果想要的是任意类型的数组呢？

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

64 ，尹伟达的 wrap 大小 32 高性能计算既然要高性能，必须针对不同硬件优化，而优化策略都不一样，何谈统一？黄仁勋回应称：单机上 CPU 的并行，多机上的 CPU 并行，单机单卡 GPU ，单机多卡 GPU ，每一种要采用的策略都完全不同，表示不看好 oneapi 能统一异构计算 …… 现在流行改名运动？ Facebook 改名 Meta ？ TBB 改名 OneTBB ？方便割投资人韭菜？

0 码力 | 116 页 | 15.85 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

hpstory, justin‐tse, krahets, nuomi1, Reanon, sjinzh 完成（按照首字母顺序排列）。感谢他们付出的时间与精力，正是他们确保了各语言代码的规范与统一。推荐语 “一本通俗易懂的数据结构与算法入门书，引导读者手脑并用地学习，强烈推荐算法初学者阅读。” ——邓俊辉，清华大学计算机系教授 “如果我当年学数据结构与算法的时候有《Hello 算法》，学起来应该会简单 CII」。它在 ASCII 的 7 位基础上扩展到 8 位，能够表示 256 个不同的字符。在世界范围内，陆续出现了一批适用于不同地区的 EASCII 字符集。这些字符集的前 128 个字符统一为 ASCII 码，后 128 个字符定义不同，以适应不同语言的需求。 3.4.2. GBK 字符集后来人们发现，EASCII 码仍然无法满足许多语言的字符数量要求。例如，汉字大约有近十万个，光日常使和符号都收录其中，不就可以解决跨语言环境和乱码问题了吗？在这种想法的驱动下，一个大而全的字符集 Unicode 应运而生。「Unicode」的全称为“统一字符编码”，理论上能容纳一百多万个字符。它致力于将全球范围内的字符纳入到统一的字符集之中，提供一种通用的字符集来处理和显示各种语言文字，减少因为编码标准不同而产生的乱码问题。自 1991 年发布以来，Unicode 不断扩充新的语言与字符。截止

0 码力 | 343 页 | 27.39 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

分开存”是没问题的。 • 而且 SOA 在遇到存储不是 vector ，而是稀疏的哈希网格之类索引有一定开销的数据结构，可能就不适合了。这就是为什么王鑫磊最喜欢 AOSOA ：在高层保持 AOS 的统一索引，底层又享受 SOA 带来的矢量化和缓存行预取等好处……就是随机索引比较麻烦。结构体剥离： https://blog.csdn.net/qq_36287943/article/details/103601176 = malloc(n * m * sizeof(float)); 可以在堆上分配 n 行 m 列的二维数组。 • 通过 a[i * m + j] 访问第 i 行，第 j 列的元素。 • 释放时，统一用 free(a) • 注意到：动态的数组，因为编译器光从指针没办法推断出列数 m ，因此要手动扁平化。 C++ 动态数组 • vector a(n); 可以在堆上分配有 n 个元素的一维数组。

0 码力 | 147 页 | 18.88 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

tory、justin‑tse、krahets、 night‑cruise、nuomi1 和 Reanon 完成（按照首字母顺序排列）。感谢他们付出的时间与精力，正是他们确保了各语言代码的规范与统一。在本书的创作过程中，我得到了许多人的帮助。 ‧ 感谢我在公司的导师李汐博士，在一次畅谈中你鼓励我“快行动起来”，坚定了我写这本书的决心； ‧ 感谢我的女朋友泡泡作为本书的首位读者，从算法小 EASCII 字符集。它在 ASCII 的 7 位基础上扩展到 8 位，能够表示 256 个不同的字符。在世界范围内，陆续出现了一批适用于不同地区的 EASCII 字符集。这些字符集的前 128 个字符统一为 ASCII 码，后 128 个字符定义不同，以适应不同语言的需求。 3.4.2 GBK 字符集后来人们发现，EASCII 码仍然无法满足许多语言的字符数量要求。比如汉字有近十万个，光日常使用的就号都收录其中，不就可以解决跨语言环境和乱码问题了吗？在这种想法的驱动下，一个大而全的字符集 Unicode 应运而生。 Unicode 的中文名称为“统一码”，理论上能容纳 100 多万个字符。它致力于将全球范围内的字符纳入统一的字符集之中，提供一种通用的字符集来处理和显示各种语言文字，减少因为编码标准不同而产生的乱码问题。自 1991 年发布以来，Unicode 不断扩充新的语言与字符。截至

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0b5 C++版

hpstory, justin‐tse, krahets, nuomi1, Reanon, sjinzh 完成（按照首字母顺序排列）。感谢他们付出的时间与精力，正是他们确保了各语言代码的规范与统一。 i 目录第 0 章前言 1 0.1 关于本书 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . CII」。它在 ASCII 的 7 位基础上扩展到 8 位，能够表示 256 个不同的字符。在世界范围内，陆续出现了一批适用于不同地区的 EASCII 字符集。这些字符集的前 128 个字符统一为 ASCII 码，后 128 个字符定义不同，以适应不同语言的需求。 3.4.2 GBK 字符集后来人们发现，EASCII 码仍然无法满足许多语言的字符数量要求。比如汉字大约有近十万个，光日常使用号都收录其中，不就可以解决跨语言环境和乱码问题了吗？在这种想法的驱动下，一个大而全的字符集 Unicode 应运而生。「Unicode」的全称为“统一字符编码”，理论上能容纳一百多万个字符。它致力于将全球范围内的字符纳入到统一的字符集之中，提供一种通用的字符集来处理和显示各种语言文字，减少因为编码标准不同而产生的乱码问题。自 1991 年发布以来，Unicode 不断扩充新的语言与字符。截止

0 码力 | 377 页 | 30.69 MB | 1 年前
3

共 21 条前往

页

C++高性性能高性能并行编程优化课件 08 16 11 现代教程高速上手 14 17 20 12 06 Hello 算法 1.0 0b4 07 1.1 0b5

分类

语言

格式