跨平台支持 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

--build 指令，不同平台，统一命令！ • cmake -B build • cmake --build build -j4 • sudo cmake --build build --target install • cmake -B build 免去了先创建 build 目录再切换进去再指定源码目录的麻烦。 • cmake --build build 统一了不同平台（ Linux 上会调用 CMAKE_INSTALL_PREFIX ） -G 选项：指定要用的生成器 • 众所周知， CMake 是一个跨平台的构建系统，可以从 CMakeLists.txt 生成不同类型的构建系统（比如 Linux 的 make ， Windows 的 MSBuild ），从而让构建规则可以只写一份，跨平台使用。 • 过去的软件（例如 TBB ）要跨平台，只好 Makefile 的构建规则写一份， MSBuild 也写一份。 MacOS 系统默认是 Xcode 生成器。 • 可以用 -G 参数改用别的生成器，例如 cmake -GNinja 会生成 Ninja 这个构建系统的构建规则。 Ninja 是一个高性能，跨平台的构建系统， Linux 、 Windows 、 MacOS 上都可以用。 • Ninja 可以从包管理器里安装，没有包管理器的 Windows 可以用 Python 的包管理器安装： •

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）关于作者 • 我是 Taichi 编译器的贡献者之一（ https://github 准备的参数可能对 MSVC 不适用。构建系统的构建系统（ CMake ） • 为了解决 make 的以上问题，跨平台的 CMake 应运而生！ • make 在 Unix 类系统上是通用的，但在 Windows 则不然。 • 只需要写一份 CMakeLists.txt ，他就能够在调用时生成当前系统所支持的构建系统。 • 需要准确地指明每个项目之间的依赖关系，有头文件时特别头疼。 • CMake 可 • > cmake -B build • 让 make 读取 build/Makefile ，并开始构建 a.out ： • > make -C build • 以下命令和上一个等价，但更跨平台： • > cmake --build build • 执行生成的 a.out ： • > build/a.out 为什么需要库（ library ） • 有时候我们会有多个可执行文件，他

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

刚刚说的让 10000000 表示 -1 ， 11111111 表示 -128 的方法就叫做反码表示法。 • 但是这样还有一个问题，那就是硬件电路上，需要完全重新设计，对符号位做一些特殊判断，才能支持有符号整数的加减法，因此如今的计算机都采用了一种更聪明的表示法： • 他们让 11111111 表示 -1 ， 10000000 表示 -128 ，也就是大名鼎鼎的补码表示法。 • 这样做的目的是，利用加法器的“溢出”机制，例如位。 Windows 认为 long 不论 32 位系统还是 64 位系统都一样应该为 32 位，认为这样安全。因此我们在编写 C 语言程序时，应该避免使用 long 类型，他会导致你的程序难以跨平台。除了 long 之外的其他类型则没有区别，可以放心使用。无符号整数： unsigned 修饰有符号版本无符号版本 char unsigned char short unsigned typedef int int32_t; • typedef long long int64_t; • 这样不论操作系统对类型的定义如何混乱，这些标准化的类型都是确定的大小。 • 这就避免了跨平台的麻烦，而且直接他们在类型名字中直接写明了类型的大小，更直观。标准化的类型： stdint.h • 除了有符号的 int32_t 系列外，也提供了无符号 uint32_t 系列： • typedef

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）温馨提示： 1. 会用到第二讲（ RAII 与智能指针）里的知识 2. 课件中一部分代码是基于 C++17 的个人认为， C++11 中很多特性，其实可以看做是为了支持多线程而顺带引入的……如 chrono 、移动、 milliseconds 是 duration 的类型别名这里我们创建了 double_ms 作为 duration 的别名跨平台的 sleep ： std::this_thread::sleep_for • 可以用 std::this_thread::sleep_for 替代 Unix 类操作系统专有的的 usleep 才能继续和用户交互。 • 下载完成前，整个界面都会处于“未响应”状态，用户想做别的事情就做不了。现代 C++ 中的多线程： std::thread • C++11 开始，为多线程提供了语言级别的支持。他用 std::thread 这个类来表示线程。 • std::thread 构造函数的参数可以是任意 lambda 表达式。 • 当那个线程启动时，就会执行这个 lambda 里的内容。

0 码力 | 79 页 | 14.11 MB | 1 年前
3
现代C++ 教程：高速上手C++11/14/17/20

中的编程范式。现代 C++ 还为自身的标准库增加了非常多的工具和方法，诸如在语言自身标准的层面上制定了 std::thread，从而支持了并发编程，在不同平台上不再依赖于系统底层的 API，实现了语言层面的跨平台支持；std::regex 提供了完整的正则表达式支持等等。C++98 已经被实践证明了是一种非常成功的『范型』，而现代 C++ 的出现，则进一步推动这种范型，让 C++ 成为系统程序设计和库开发更好的不必担心，本书的后续章节将为你介绍这一切。进一步阅读的参考文献 • C++ 语言导学. Bjarne Stroustrup • C++ 历史 • C++ 特性在 GCC/Clang 等编译器中的支持情况 • C++98 与 C99 之间的区别 11 第 2 章语言可用性的强化第 2 章语言可用性的强化当我们声明、定义一个变量或者常量，对代码进行流程控制、面向对象的功能、模板编程等这些都 arr_4[len_2] 仍然是非法的呢？这是因为 C++ 标准中数组的长度必须是一个常量表达式，而对于 len_2 而言，这是一个 const 常数，而不是一个常量表达式，因此（即便这种行为在大部分编译器中都支持，但是）它是一个非法的行为，我们需要使用接下来即将介绍的 C++11 引入的 constexpr 特性来解决这个问题；而对于 arr_5 来说，C++98 之前的编译器无法得知 len_foo()

0 码力 | 83 页 | 2.42 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

因此硬件出于安全，预取不能跨越页边界，否则可能会触发不必要的 page fault 。所以我们选用页的大小，因为本来就不能跨页顺序预取，所以被我们切断掉也无所谓。 • 另外，我们可以用 _mm_alloc 申请起始地址对齐到页边界的一段内存，真正做到每个块内部不出现跨页现象。手动预取： _mm_prefetch • 对于不得不随机访问很小一块的情况，还可以通过 _mm_prefetch 字节，才能避免浪费读取的带宽。这样的条件实在有点苛刻，毕竟小彭老师的电脑还不支持 AVX512 。 • 可以用 _mm_stream_si32 指令代替直接赋值的写入，他能够绕开缓存，将一个 4 字节的写入操作，挂起到临时队列，等凑满 64 字节后，直接写入内存，从而完全避免读的带宽。 • 可惜这货只支持 int 做参数，要用 float 还得转换一下指针类型， bitcast _mm_malloc(n, aalign) 可以分配对齐到任意 a 字节的内存。他在这个头文件里。是 x86 特有的，并且需要通过 _mm_free 来释放。 • 还有一个跨平台版本（比如用于 arm 架构）的 aligned_alloc(align, n) ，他也可以分配对齐到任意 a 字节的内存，通过 free 释放。 • 利用他们可以实现分配对齐到页面（ 4KB

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）为什么需要模板函数（ template ） • 避免重复写代码。 • 比如，利用重载实现“将一个数乘以 T> • 可以声明类型 T 作为模板尖括号里的参数。除了类型，任意整数也可以作为模板参数： • template • 来声明一个整数 N 作为模板参数。 • 不过模板参数只支持整数类型（包括 enum ）。 • 浮点类型、指针类型，不能声明为模板参数。自定义类型也不可以，比如： • template // 错误！模板参数：多个模板参数 vector 类型的参数。 • 这里用了 const & 避免不必要的的拷贝。 • 不过，这种部分特化也不支持隐式转换。为什么要支持整数作为模板参数：因为是编译期常量 • 你可能会想，模板只需要支持 class T 不就行了？反正 int N 可以作为函数的参数传入，模板还不支持浮点。 • template void func(); • 和 • void func(int

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：汇编语言 x64 架构下的寄存器模型通用寄存器： 32 位时代 const 一样是 C++ 标准的一部分。 • restrict 是 C99 标准关键字，但不是 C++ 标准的关键字。 • __restrict 其实是编译器的“私货”，好在大多数主流编译器都支持。 • 所以无耻的 C 艹标准委员会什么时候肯把他加入标准呢？看看人家 C 语言。编译器优化：合并写入将两个 int32 的写入合并为一个 int64 的写入。合并写入：不能跳跃但如果访问的两个元素地因为他不敢保证运行这个程序的电脑支持 AVX 指令集…… 两个 int32 可以合并为一个 int64 四个 int32 可以合并为一个 __m128 八个 int32 可以合并为一个 __m256 让编译器自动检测当前硬件支持的指令集 -march=native 让编译器自动判断当前硬件支持的指令。老师的电脑支持 AVX 指令集，所以他用了。不过注意这样编译出的程序，可能放到别人不支持 AVX 的电脑上没法运行。

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）从一个案例看 C++ 的历史 • 求一个列表中所有数的和： # 参考资料 - 允许函数参数为自动推断（ auto ）未来： C++20 引入协程（ coroutine ）和生成器（ generator ）未来： C++20 标准库加入 format 支持跑远了！ • 鉴于 C++20 还没有普遍落地（例如 CMake 不支持 C++20 modules ）因此我们的课程基于 C++17 标准，有时会谈到 C++20 作为扩展阅读。 C++ 有哪些面向对象思想？ C++ 思想：封装员一样的构造函数。 • 他会将 {} 内的内容，会按顺序赋值给对象的每一个成员。 • 目的是为了方便程序员不必手写冗长的构造函数一个个赋值给成员。 • 不过初始化列表的构造函数只支持通过 {} 或 = {} 来构造，不支持通过 () 构造。其实是为了向下兼容 C++98 编译器默认生成的构造函数：初始化列表（初始化一部分，剩余的为默认值） • 这个编译器自动生成的初始化列表构造函数，除了可以指定全部成员来构造以外，

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行摩尔定律：停止增长了吗？ • 晶体管的密度的确仍在指数增长，但处理器主 *(it + i) 这样需要迭代器跨步访问的也不推荐。推荐通过迭代器顺序访问 • 最好的方式是用 begin() 和 end() 的迭代器区间，按顺序访问。 parallel_for 也支持迭代器 • 冷知识： tbb::blocked_range 的参数不一定是 size_t ，也可以是迭代器表示的区间。 • 这样 lambda 体内 r 的 begin 和 end 也会返回每一个步骤（ filter ）的输入和返回类型都可以不一样。要求：流水线上一步的返回类型，必须和下一步的输入类型一致。且第一步的没有输入，最后一步没有返回，所以都为 void 。 • TBB 支持嵌套的并行，因此流水线内部也可以调用 tbb::parallel_for 进一步并行。流水线的利弊 • 流水线式的并行，因为每个线程执行的指令之间往往没有关系，主要适用于各个核心可以独立工作的

0 码力 | 116 页 | 15.85 MB | 1 年前
3

共 29 条前往

页

C++高性性能高性能并行编程优化课件 11 01 12 05 现代教程高速上手 14 17 20 07 03 04 02 06

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

现代C++ 教程：高速上手C++11/14/17/20

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅