多处理器架构 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

，从而实现一个函数针对 GPU 和 CPU 生成两份源码级不同的代码。 __CUDA_ARCH__ 是个版本号 • 其实 __CUDA_ARCH__ 是一个整数，表示当前编译所针对的 GPU 的架构版本号是多少。这里是 520 表示版本号是 5.2.0 ，最后一位始终是 0 不用管，我们通常简称他的版本号为 52 就行了。 • 这个版本号是编译时指定的版本，不是运行时检测到的版本。编译器默认就是最老 com/cuda/cuda-compiler-driver-nvcc/index.html#extended-notation 针对不同的架构，使用不同的代码通过 CMake 设置架构版本号 • 可以用 CMAKE_CUDA_ARCHITECTURES 这个变量，设置要针对哪个架构生成 GPU 指令码。 • 小彭老师的显卡是 RTX2080 ，他的版本号是 75 ，因此最适合他用的指令码版本是 75 • 不过英伟达的架构版本都是向前兼容的，即版本号为 75 的 RTX2080 也可以运行版本号为 52 的指令码，虽然不够优化，但是至少能用。也就是要求：编译期指定的版本 ≤ 运行时显卡的版本。 CMAKE_CUDA_ARCHITECTURES 会自动转换成 --gpu-code 等编译 flag 版本号不要太新了 • 比如这里设置了 RTX3000 系列的架构版本号 86

0 码力 | 142 页 | 13.52 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

(? + ?) 。并行计算优化我们知道，分治生成的子问题是相互独立的，因此通常可以并行解决。也就是说，分治不仅可以降低算法的时间复杂度，还有利于操作系统的并行优化。并行优化在多核或多处理器的环境中尤其有效，因为系统可以同时处理多个子问题，更加充分地利用计算资源，从而显著减少总体的运行时间。比如在桶排序中，我们将海量的数据平均分配到各个桶中，则可所有桶的排序任务分散到各个计算单元，完

0 码力 | 343 页 | 27.39 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

+ ?) 。 2. 并行计算优化我们知道，分治生成的子问题是相互独立的，因此通常可以并行解决。也就是说，分治不仅可以降低算法的时间复杂度，还有利于操作系统的并行优化。并行优化在多核或多处理器的环境中尤其有效，因为系统可以同时处理多个子问题，更加充分地利用计算资源，从而显著减少总体的运行时间。比如在图 12‑3 所示的“桶排序”中，我们将海量的数据平均分配到各个桶中，则可所有桶的排序任务分散到

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0b5 C++版

+ ?) 。 2. 并行计算优化我们知道，分治生成的子问题是相互独立的，因此通常可以并行解决。也就是说，分治不仅可以降低算法的时间复杂度，还有利于操作系统的并行优化。并行优化在多核或多处理器的环境中尤其有效，因为系统可以同时处理多个子问题，更加充分地利用计算资源，从而显著减少总体的运行时间。比如在图 12‑3 所示的“桶排序”中，我们将海量的数据平均分配到各个桶中，则可所有桶的排序任务分散到

0 码力 | 377 页 | 30.69 MB | 1 年前
3
Hello 算法 1.0.0 C++版

+ ?) 。 2. 并行计算优化我们知道，分治生成的子问题是相互独立的，因此通常可以并行解决。也就是说，分治不仅可以降低算法的时间复杂度，还有利于操作系统的并行优化。并行优化在多核或多处理器的环境中尤其有效，因为系统可以同时处理多个子问题，更加充分地利用计算资源，从而显著减少总体的运行时间。比如在图 12‑3 所示的“桶排序”中，我们将海量的数据平均分配到各个桶中，则可所有桶的排序任务分散到

0 码力 | 378 页 | 17.59 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

+ ?) 。 2. 并行计算优化我们知道，分治生成的子问题是相互独立的，因此通常可以并行解决。也就是说，分治不仅可以降低算法的时间复杂度，还有利于操作系统的并行优化。并行优化在多核或多处理器的环境中尤其有效，因为系统可以同时处理多个子问题，更加充分地利用计算资源，从而显著减少总体的运行时间。比如在图 12‑3 所示的“桶排序”中，我们将海量的数据平均分配到各个桶中，则可将所有桶的排序任务分散

0 码力 | 379 页 | 18.48 MB | 10 月前
3
《深入浅出MFC》2/e

体版之授权，直接等3/e 出版后再动作。没想到一拖经年，我的3/e 写作计划并没有如期完成，致使大陆读者反而没有《深入浅出MFC》2/e 简体版可看。《深入浅出MFC》3/e 没有如期完成的原因是，MFC 本体架构并没有什么大改变。《深入浅出MFC》2/e 书中所论之工具及程序代码虽采用VC5+MFC42，仍适用于目前的VC6+MFC421（唯，工具之画面或功能可能有些微变化）。由于《深入浅出MFC》2/e 就会吸收很快。请问，想要从DOS 跨足到Windows 程序设计有哪些书值得推荐呢? hschin.bbs@bbs.cs.nthu.edu.tw：建议你看侯俊杰的深入浅出MFC，里面除了对窗口程序的架构作基础性的说明，让你了解一些基础概论，也说了不少窗口程序设计的课题，是非常不错的一本书。 xiii News / BBS 论坛（CompBook and/or programming）请问VISUAL 您好，我是屏科大的学生，想要用MFC 写一个可以新增、修改、删除资料等动作的程序，日前老师借了我您的书深入浅出MFC 第二版，我读了很快乐，对于Visual C++ 的 IDE 环境更为了解，对于MFC 整个架构，有了比较明朗的感觉。大陆Mike Dong 尊敬的侯俊杰先生：我叫董旬。我对C/C++ 非常有兴趣。畅读了您写的书《深入浅出 WINDOWS

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

64 位。 • 实际上地址的高 16 位始终和第 48 位一致（符号扩展），也就是虚拟地址空间只有 48 位。 • 而经过 MMU 映射后实际给内存的地址只有 39 位，因此如今的 x64 架构实际上只能访问 512GB 内存，如果插了超过这个大小的内存条他也不会认出来。 • 此外， 16 位计算机实际上能通过额外的段寄存器访问到 20 位的内存地址（ 1MB ）。 • 32 位计算机还能通过位 32 位 32 位 long long 64 位 64 位 64 位 64 位注意到 Unix 和 Windows 关于 long 的定义有分歧： Unix 认为 long 的大小应该和系统架构位数一样， 32 位系统上就 32 位， 64 位系统上就 64 位。 Windows 认为 long 不论 32 位系统还是 64 位系统都一样应该为 32 位，认为这样安全。因此我们在编写 C 证的。 • 为了解决不同操作系统上对类型定义混乱的问题， C 语言标准引入了 stdint.h 这个头文件。 • 他里面包含一系列类型别名 (typedef) ，这些别名保证不论是什么操作系统什么架构，都是固定的大小，例如： • typedef char int8_t; • typedef short int16_t; • typedef int int32_t; • typedef

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

章：汇编语言 x64 架构下的寄存器模型通用寄存器： 32 位时代 • 32 位 x86 架构中的通用寄存器有： • eax, ecx, edx, ebx, esi, edi, esp, ebp • 其中 esp 是堆栈指针寄存器，和函数的调用与返回相关。 • 其中 eax 是用于保存返回值的寄存器。通用寄存器： 64 位时代 • 64 位 x86 架构中的通用寄存器有： •

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

Windows 平台默认为 C:/Program Files 。 • 是你在 find_package( REQUIRED) 命令中指定的包名。 • 是系统的架构名。 https://zhuanlan.zhihu.com/p/60479441 Unix 类系统下的搜索路径 • /(lib/|lib*|share)/cmake/*/ ${CMAKE_PREFIX_PATH} ， Unix 平台默认为 /usr 。 • 是你在 find_package( REQUIRED) 命令中指定的包名。 • 是系统的架构，例如 x86_64-linux-gnu 或 i386-linux-gnu 。 • （用于伺候 Ubuntu 喜欢把库文件套娃在 /usr/lib/x86_64-linux-gnu 目录下） https://zhuanlan

0 码力 | 56 页 | 6.87 MB | 1 年前
3

共 14 条前往

页

C++高性性能高性能并行编程优化课件 08 Hello 算法 1.0 0b4 1.1 0b5 1.2 简体中文简体中文深入深入浅出MFC 12 04 16

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

Hello 算法 1.0.0b4 C++版

Hello 算法 1.1.0 C++ 版

Hello 算法 1.0.0b5 C++版

Hello 算法 1.0.0 C++版

Hello 算法 1.2.0 简体中文 C++ 版

《深入浅出MFC》2/e

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南