宣传标语生成 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

-j4 • sudo make install • cd .. • 需要先创建 build 目录 • 切换到 build 目录 • 在 build 目录运行 cmake < 源码目录 > 生成 Makefile • 执行本地的构建系统 make 真正开始构建（ 4 进程并行） • 让本地的构建系统执行安装步骤 • 回到源码目录现代 CMake 提供了更方便的 -B 和 --build 上调用 devenv.exe ） • 结论：从现在开始，如果在命令行操作 cmake ，请使用更方便的 -B 和 --build 命令。 // 在源码目录用 -B 直接创建 build 目录并生成 build/Makefile // 自动调用本地的构建系统在 build 里构建，即： make -C build -j4 // 调用本地的构建系统执行选项：指定配置变量（又称缓存变量） • 可见 CMake 项目的构建分为两步： • 第一步是 cmake -B build ，称为配置阶段（ configure ），这时只检测环境并生成构建规则 • 会在 build 目录下生成本地构建系统能识别的项目文件（ Makefile 或是 .sln ） • 第二步是 cmake --build build ，称为构建阶段（ build ），这时才实际调用编译器来编译代码

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

https://zhuanlan.zhihu.com/p/350136757 未来： C++20 允许函数参数为自动推断（ auto ）未来： C++20 引入协程（ coroutine ）和生成器（ generator ）未来： C++20 标准库加入 format 支持跑远了！ • 鉴于 C++20 还没有普遍落地（例如 CMake 不支持 C++20 modules ）因此我们的课程 static_cast(ptr) 的错误。 • 虽然作者也经常会忍不住在 zeno 中用编译器默认生成的构造函数：无参数（小心 POD 陷阱！） • 除了我们自定义的构造函数外，编译器还会自动生成一些构造函数。 • 当一个类没有定义任何构造函数，且所有成员都有无参构造函数时，编译器会自动生成一个无参构造函数 Pig() ，他会调用每个成员的无参构造函数。 • 但是请注意，这些类型不会被初始化为编译器默认生成的构造函数：无参数（ POD 陷阱解决方案） • 不过我们可以手动指定初始化 weight 为 0 。 • 通过 {} 语法指定的初始化值，会在编译器自动生成的构造函数里执行。编译器默认生成的构造函数：无参数（ POD 陷阱解决方案，续） • 不过我们可以手动指定初始化 weight 为 0 。 • 通过 {} 语法指定的初始化值，不仅会在编译器自动生成的构造函数里执行，也会用户自定

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

什么是编译器 • 编译器，是一个根据源代码生成机器码的程序。 • > g++ main.cpp -o a.out • 该命令会调用编译器程序 g++ ，让他读取 main.cpp 中的字符串（称为源码），并根据 C+ + 标准生成相应的机器指令码，输出到 a.out 这个文件中，（称为可执行文件）。 • > ./a.out • 之后执行该命令，操作系统会读取刚刚生成的可执行文件，从而执行其中编译成机器码，其中使用 -c 选项指定生成临时的对象文件 main.o ，之后再根据一系列对象文件进行链接，得到最终的 a.out ： • > g++ hello.o main.o -o a.out 为什么需要构建系统（ Makefile ） • 文件越来越多时，一个个调用 g++ 编译链接会变得很麻烦。 • 于是，发明了 make 这个程序，你只需写出不同文件之间的依赖关系，和生成各文件的规则。 • hello.o ，而不需要把 main.o 也重新编译一遍。 2. 能够自动并行地发起对 hello.cpp 和 main.cpp 的编译，加快编译速度（ make -j ）。 3. 用通配符批量生成构建规则，避免针对每个 .cpp 和 .o 重复写 g++ 命令（ %.o: %.cpp ）。 • 但坏处也很明显： 1. make 在 Unix 类系统上是通用的，但在 Windows 则不然。

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

用这个特性，我们可以用 CMake 的生成器表达式来实现只对 .cu 文件开启此选项（不然给到 gcc 就出错了）。 • 当然， constexpr 里没办法调用 printf ，也不能用 __syncthreads 之类的 GPU 特有的函数，因此也不能完全替代 __host__ 和 __device__ 。通过 #ifdef 指令针对 CPU 和 GPU 生成不同的代码 • CUDA msvc ）生成 CPU 部分的指令码。然后送到真正的 GPU 编译器生成 GPU 指令码。最后再链接成同一个文件，看起来好像只编译了一次一样，实际上你的代码会被预处理很多次。 • 他在 GPU 编译模式下会定义 __CUDA_ARCH__ 这个宏，利用 #ifdef 判断该宏是否定义，就可以判断当前是否处于 GPU 模式，从而实现一个函数针对 GPU 和 CPU 生成两份源码级不同的 html#extended-notation 针对不同的架构，使用不同的代码通过 CMake 设置架构版本号 • 可以用 CMAKE_CUDA_ARCHITECTURES 这个变量，设置要针对哪个架构生成 GPU 指令码。 • 小彭老师的显卡是 RTX2080 ，他的版本号是 75 ，因此最适合他用的指令码版本是 75 。 • 如果不指定，编译器默认的版本号是 52 ，他是针对 GTX900

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

4GB 限制外，也有一定性能优势。 8 位， 16 位， 32 位， 64 位版本 al, ax, eax, rax r15b, r15w, r15d, r15 AT&T 汇编语言 GCC 编译器所生成的汇编语言就属于这种返回值：通过 eax 传出 movl $42, %eax 相当于： eax = 42; 前 6 个参数：分别通过 edi ， esi ， edx ， ecx ， r8d ， rsi 并不是指针整数加常数乘整数：都可以被优化成 leal 因为这种线性变换在地址索引中很常见，所以被 x86 做成了单独一个指令。这里尽管不是地址，但同样可以利用 lea 指令简化生成的代码大小。 eax = rdi + rsi * 8 指针访问对象：线性访问地址 rsi = (int64_t)esi eax = *(int *)(rdi + rsi * 4) 为什么乘以：一个 float 加法。 • addsd ：一个 double 加法。 • addps ：四个 float 加法。 • addpd ：两个 double 加法。省流助手：如果你看到编译器生成的汇编里，有大量 ss 结尾的指令则说明矢量化失败；如果看到大多数都是 ps 结尾则说明矢量化成功。 xmm0 xmm1 xmm0 addss %xmm1, %xmm0 addps %xmm1

0 码力 | 108 页 | 9.47 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

展示效果受限，可访问 hello‑algo.com 网页版以获得更优的阅读体验。致谢本书在开源社区众多贡献者的共同努力下不断成长。感谢每一位投入时间与精力的撰稿人，他们是（按照 GitHub 自动生成的顺序）：krahets, sjinzh, justin‑tse, Reanon, nuomi1, Gonglja, S‑N‑O‑ R‑L‑A‑X, danielsss, hpstory, RiverTwilight === File: worst_best_time_complexity.cpp === /* 生成一个数组，元素为 { 1, 2, ..., n }，顺序被打乱 */ vector randomNumbers(int n) { vector nums(n); // 生成数组 nums = { 1, 2, 3, ..., n } for (int i = 0; i < < n; i++) { nums[i] = i + 1; } // 使用系统时间生成随机种子 unsigned seed = chrono::system_clock::now().time_since_epoch().count(); 2. 复杂度 hello‑algo.com 27 // 随机打乱数组元素 shuffle(nums.begin(), nums.end(), defa

0 码力 | 343 页 | 27.39 MB | 1 年前
3
《深入浅出MFC》2/e

8086, 8051 系列及Motorola 68000 系列的assembly 语言比较熟悉，而对framework 这样的软件制造思想和手段一直并不熟悉。近来偶有机会加入一个project，要生成在Win95 下运行的代码，因此，想尝试一下使用framework 构造软件。很幸运，我找到了您的书。讲VC++ MFC 的书很多，但能像您这样做到「深入浅出」的，实在很少。看您的书，是享受。我手里这本 088 * ㆕種不同的物件生存方式 / 090 * 所謂 "Unwinding" / 092 執行時期型別資訊（RTTI） / 092 動態生成（Dynamic Creation） / 095 異常處理（Exception Handling） / 096 Template / 100 16 IsKindOf（型別辨識） / 140 Frame4 範例程式 / 141 Dynamic Creation（動態生成） / 143 DECLARE_DYNCREATE / IMPLEMENT_DYNCREATE 巨集 / 144 Frame6 範例程式 / 151

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

hello‑algo.com 3 图 0‑1 本书主要内容 0.1.3 致谢本书在开源社区众多贡献者的共同努力下不断完善。感谢每一位投入时间与精力的撰稿人，他们是（按照 GitHub 自动生成的顺序）：krahets、coderonion、Gonglja、nuomi1、Reanon、justin‑tse、hpstory、 danielsss、curtishd、night‑cruise、 linearLogRecur(n / 2); for (int i = 0; i < n; i++) { count++; } return count; } 图 2‑13 展示了线性对数阶的生成方式。二叉树的每一层的操作总数都为 ? ，树共有 log2 ? + 1 层，因此时间复杂度为 ?(? log ?) 。第 2 章复杂度分析 www.hello‑algo.com 39 图 === File: worst_best_time_complexity.cpp === /* 生成一个数组，元素为 { 1, 2, ..., n }，顺序被打乱 */ vector randomNumbers(int n) { vector nums(n); // 生成数组 nums = { 1, 2, 3, ..., n } for (int i = 0; i <

0 码力 | 379 页 | 18.48 MB | 10 月前
3
Hello 算法 1.1.0 C++ 版

hello‑algo.com 3 图 0‑1 本书主要内容 0.1.3 致谢本书在开源社区众多贡献者的共同努力下不断完善。感谢每一位投入时间与精力的撰稿人，他们是（按照 GitHub 自动生成的顺序）：krahets、Gonglja、nuomi1、codingonion、Reanon、justin‑tse、hpstory、 danielsss、curtishd、night‑cruise linearLogRecur(n / 2); for (int i = 0; i < n; i++) { count++; } return count; } 图 2‑13 展示了线性对数阶的生成方式。二叉树的每一层的操作总数都为 ? ，树共有 log2 ? + 1 层，因此时间复杂度为 ?(? log ?) 。第 2 章复杂度分析 hello‑algo.com 39 图 2‑13 === File: worst_best_time_complexity.cpp === /* 生成一个数组，元素为 { 1, 2, ..., n }，顺序被打乱 */ vector randomNumbers(int n) { vector nums(n); // 生成数组 nums = { 1, 2, 3, ..., n } for (int i = 0; i <

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0b5 C++版

算法》，学起来应该会简单 10 倍！” ——李沐，亚马逊资深首席科学家致谢本书在开源社区众多贡献者的共同努力下不断成长。感谢每一位投入时间与精力的撰稿人，他们是（按照 GitHub 自动生成的顺序）：krahets, justin‑tse, sjinzh, nuomi1, Reanon, Gonglja, S‑N‑O‑R‑ L‑A‑X, hpstory, danielsss, RiverTwilight linearLogRecur(n / 2); for (int i = 0; i < n; i++) { count++; } return count; } 图 2‑13 展示了线性对数阶的生成方式。二叉树的每一层的操作总数都为 ? ，树共有 log2 ? + 1 层，因此时间复杂度为 ?(? log ?) 。第 2 章复杂度分析 hello‑algo.com 37 图 2‑13 === File: worst_best_time_complexity.cpp === /* 生成一个数组，元素为 { 1, 2, ..., n }，顺序被打乱 */ vector randomNumbers(int n) { vector nums(n); // 生成数组 nums = { 1, 2, 3, ..., n } for (int i = 0; i <

0 码力 | 377 页 | 30.69 MB | 1 年前
3

共 22 条前往

页

C++高性性能高性能并行编程优化课件 11 02 01 08 04 Hello 算法 1.0 0b4 深入深入浅出MFC 1.2 简体中文简体中文 1.1 0b5

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

Hello 算法 1.0.0b4 C++版

《深入浅出MFC》2/e

Hello 算法 1.2.0 简体中文 C++ 版

Hello 算法 1.1.0 C++ 版

Hello 算法 1.0.0b5 C++版