调度规则 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Hello 算法 1.0.0b4 C++版

表格，其中每个单元格都可以存储 1 byte 的数据，在算法运行时，所有数据都被存储在这些单元格中。系统通过「内存地址 Memory Location」来访问目标内存位置的数据。计算机根据特定规则为表格中的每个单元格分配编号，确保每个内存空间都有唯一的内存地址。有了这些地址，程序便可以访问内存中的数据。 Figure 3‑2. 内存条、内存空间、内存地址内存是所有程序的共享资源来表示一个字符，根据字符的复杂性而变。ASCII 字符只需要 1 个字节，拉丁字母和希腊字母需要 2 个字节，常用的中文字符需要 3 个字节，其他的一些生僻字符需要 4 个字节。 UTF‑8 的编码规则并不复杂，分为两种情况： ‧ 对于长度为 1 字节的字符，将最高位设置为 0 、其余 7 位设置为 Unicode 码点。值得注意的是，ASCII 字符在 Unicode 字符集中占据了前 128 ? 位设置为 1 比较容易理解，可以向系统指出字符的长度为 ? 。那么，为什么要将其余所有字节的高 2 位都设置为 10 呢？实际上，这个 10 能够起到校验符的作用，因为在 UTF‑8 编码规则下，不可能有字符的最高两位是 10 。这是因为长度为 1 字节的字符的最高一位是 0 。假设系统从一个错误的字节开始解析文本，字节头部的 10 能够帮助系统快速的判断出异常。 Figure 3‑8

0 码力 | 343 页 | 27.39 MB | 1 年前
3
Hello 算法 1.0.0b5 C++版

一块内存空间。我们可以将内存想象成一个巨大的 Excel 表格，其中每个单元格都可以存储一定大小的数据，在算法运行时，所有数据都被存储在这些单元格中。系统通过内存地址来访问目标位置的数据。如图 3‑2 所示，计算机根据特定规则为表格中的每个单元格分配编号，确保每个内存空间都有唯一的内存地址。有了这些地址，程序便可以访问内存中的数据。图 3‑2 内存条、内存空间、内存地址内存是所有程序的共享资源，当某块内存被某来表示一个字符，根据字符的复杂性而变。ASCII 字符只需要 1 个字节，拉丁字母和希腊字母需要 2 个字节，常用的中文字符需要 3 个字节，其他的一些生僻字符需要 4 个字节。 UTF‑8 的编码规则并不复杂，分为以下两种情况。 ‧ 对于长度为 1 字节的字符，将最高位设置为 0、其余 7 位设置为 Unicode 码点。值得注意的是，ASCII 字符在 Unicode 字符集中占据了前 128 10 呢？实际上，这个 10 能够起到校验符的作用。假设系统从一个错误的字节开始解析文本，字节头部的 10 能够帮助系统快速的判断出异常。之所以将 10 当作校验符，是因为在 UTF‑8 编码规则下，不可能有字符的最高两位是 10 。这个结论可以用反证法来证明：假设一个字符的最高两位是 10 ，说明该字符的长度为 1 ，对应 ASCII 码。而 ASCII 码的最高位应该是 0 ，与假设矛盾。

0 码力 | 377 页 | 30.69 MB | 1 年前
3
Hello 算法 1.0.0 C++版

Excel 表格，其中每个单元格都可以存储一定大小的数据。第 3 章数据结构 hello‑algo.com 53 系统通过内存地址来访问目标位置的数据。如图 3‑2 所示，计算机根据特定规则为表格中的每个单元格分配编号，确保每个内存空间都有唯一的内存地址。有了这些地址，程序便可以访问内存中的数据。图 3‑2 内存条、内存空间、内存地址 � 值得说明的是，将内存比作 Excel 字符只需 1 字节，拉丁字母和希腊字母需要 2 字节，常用第 3 章数据结构 hello‑algo.com 62 的中文字符需要 3 字节，其他的一些生僻字符需要 4 字节。 UTF‑8 的编码规则并不复杂，分为以下两种情况。 ‧ 对于长度为 1 字节的字符，将最高位设置为 0 ，其余 7 位设置为 Unicode 码点。值得注意的是，ASCII 字符在 Unicode 字符集中占据了前 128 10 呢？实际上，这个 10 能够起到校验符的作用。假设系统从一个错误的字节开始解析文本，字节头部的 10 能够帮助系统快速判断出异常。之所以将 10 当作校验符，是因为在 UTF‑8 编码规则下，不可能有字符的最高两位是 10 。这个结论可以用反证法来证明：假设一个字符的最高两位是 10 ，说明该字符的长度为 1 ，对应 ASCII 码。而 ASCII 码的最高位应该是 0 ，与假设矛盾。

0 码力 | 378 页 | 17.59 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

Excel 表格，其中每个单元格都可以存储一定大小的数据。第 3 章数据结构 hello‑algo.com 53 系统通过内存地址来访问目标位置的数据。如图 3‑2 所示，计算机根据特定规则为表格中的每个单元格分配编号，确保每个内存空间都有唯一的内存地址。有了这些地址，程序便可以访问内存中的数据。图 3‑2 内存条、内存空间、内存地址 Tip 值得说明的是，将内存比作 Excel 字符只需 1 字节，拉丁字母和希腊字母需要 2 字节，常用第 3 章数据结构 hello‑algo.com 62 的中文字符需要 3 字节，其他的一些生僻字符需要 4 字节。 UTF‑8 的编码规则并不复杂，分为以下两种情况。 ‧ 对于长度为 1 字节的字符，将最高位设置为 0 ，其余 7 位设置为 Unicode 码点。值得注意的是，ASCII 字符在 Unicode 字符集中占据了前 128 10 呢？实际上，这个 10 能够起到校验符的作用。假设系统从一个错误的字节开始解析文本，字节头部的 10 能够帮助系统快速判断出异常。之所以将 10 当作校验符，是因为在 UTF‑8 编码规则下，不可能有字符的最高两位是 10 。这个结论可以用反证法来证明：假设一个字符的最高两位是 10 ，说明该字符的长度为 1 ，对应 ASCII 码。而 ASCII 码的最高位应该是 0 ，与假设矛盾。

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

Excel 表格，其中每个单元格都可以存储一定大小的数据。第 3 章数据结构 www.hello‑algo.com 53 系统通过内存地址来访问目标位置的数据。如图 3‑2 所示，计算机根据特定规则为表格中的每个单元格分配编号，确保每个内存空间都有唯一的内存地址。有了这些地址，程序便可以访问内存中的数据。图 3‑2 内存条、内存空间、内存地址 Tip 值得说明的是，将内存比作 Excel 字节，拉丁字母和希腊字母需要 2 字节，常用第 3 章数据结构 www.hello‑algo.com 62 的中文字符需要 3 字节，其他的一些生僻字符需要 4 字节。 UTF‑8 的编码规则并不复杂，分为以下两种情况。 ‧ 对于长度为 1 字节的字符，将最高位设置为 0 ，其余 7 位设置为 Unicode 码点。值得注意的是，ASCII 字符在 Unicode 字符集中占据了前 128 10 呢？实际上，这个 10 能够起到校验符的作用。假设系统从一个错误的字节开始解析文本，字节头部的 10 能够帮助系统快速判断出异常。之所以将 10 当作校验符，是因为在 UTF‑8 编码规则下，不可能有字符的最高两位是 10 。这个结论可以用反证法来证明：假设一个字符的最高两位是 10 ，说明该字符的长度为 1 ，对应 ASCII 码。而 ASCII 码的最高位应该是 0 ，与假设矛盾。

0 码力 | 379 页 | 18.48 MB | 10 月前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解为什么需要构建系统（ Makefile ） • 文件越来越多时，一个个调用 g++ 编译链接会变得很麻烦。 • 于是，发明了 make 这个程序，你只需写出不同文件之间的依赖关系，和生成各文件的规则。 • > make a.out • 敲下这个命令，就可以构建出 a.out 这个可执行文件了。 • 和直接用一个脚本写出完整的构建过程相比， make 指明依赖关系的好处： 1. 当更新了 hello.o ，而不需要把 main.o 也重新编译一遍。 2. 能够自动并行地发起对 hello.cpp 和 main.cpp 的编译，加快编译速度（ make -j ）。 3. 用通配符批量生成构建规则，避免针对每个 .cpp 和 .o 重复写 g++ 命令（ %.o: %.cpp ）。 • 但坏处也很明显： 1. make 在 Unix 类系统上是通用的，但在 Windows 则不然。 2

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解构造函数！编写我们自己的 vector 类！看来 vector 也不过如此！让我们自己实现一个 Vector 类试试看吧 It works! 这个 Vector 类有哪些问题？三五法则：规则类怪谈 1. 如果一个类定义了解构函数，那么您必须同时定义或删除拷贝构造函数和拷贝赋值函数，否则出错。 2. 如果一个类定义了拷贝构造函数，那么您必须同时定义或删除拷贝赋值函数，否则出错，删除可导致 • 常见的有 std::vector const &arr 等。 • 注：有的教材喜欢这样： const Pig &pig ，仅仅是个人喜好不同，没有实际区别。函数参数类型优化规则：按引用还是按值？ • 如果是基础类型（比如 int ， float ）则按值传递： • float squareRoot(float val); • 如果是原始指针（比如 int * ， Object

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

Concurrency in Action ）不一定就是完美解决方案，要根据实际情况判断。真正的解决： tbb::spin_mutex 其实主要的瓶颈在于 std::mutex 会切换到操作系统内核中去调度，非常低效。而 tbb::spin_mutex 则是基于硬件原子指令的，完全用户态的实现。区别： std::mutex 的陷入等待会让操作系统挂起该线程，以切换到另一个；而 tbb::spin_mutex 的代码。 • 要求：自动扩展边界，按需分配内存，垃圾回收及时释放全零的块，用量化的 bit 压缩空间，使用 omp 或 tbb 并行，用 accessor 缓存坐标以减轻锁的压力。 • 评分规则：加速了多少倍就是多少分。感谢观看！ by 彭于斌（ github@archibate ）录播： https://space.bilibili.com/ 263032155 课件： https://github

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解互。并在主线程中等待该任务组里的任务全部执行完毕。 • 区别在于，一个任务不一定对应一个线程，如果任务数量超过 CPU 最大的线程数，会由 TBB 在用户层负责调度任务运行在多个预先分配好的线程，而不是由操作系统负责调度线程运行在多个物理核心。封装好了： parallel_invoke 更好的例子第 1 章：并行循环时间复杂度（ time-efficiency ）与工作量复杂度（秒 0 分 30 秒解决 1 ：线程数量超过 CPU 核心数量，让系统调度保证各个核心始终饱和 • 因此，最好不是按照图像大小均匀等分，而是按照工作量大小均匀等分。然而工作量大小我们没办法提前知道……怎么办？ • 最简单的办法：只需要让线程数量超过 CPU 核心数量，这时操作系统会自动启用时间片轮换调度，轮流执行每个线程。 • 比如这里分配了 16 个线程，但是只有 4 个处理器核心。

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

据。还有点特殊的性质，我们稍后会讲。 • 通常板块数量总是大于 SM 的数量，这时英伟达驱动就会在多个 SM 之间调度你提交的各个板块。正如操作系统在多个 CPU 核心之间调度线程那样…… • 不过有一点不同， GPU 不会像 CPU 那样做时间片轮换——板块一旦被调度到了一个 SM 上，就会一直执行，直到他执行完退出，这样的好处是不存在保存和切换上下文（寄存器，共享内存等）的开销，毕竟存器，共享内存等）的开销，毕竟 GPU 的数据量比较大，禁不起这样切换来切换去…… • 一个 SM 可同时运行多个板块，这时多个板块共用同一块共享内存（每块分到的就少了）。 • 而板块内部的每个线程，则是被进一步调度到 SM 上的每个 SP 。无原子的解决方案： sum 变成数组 • 刚刚的数组求和例子，其实可以不需要原子操作。 • 首先，声明 sum 为比原数组小 1024 倍的数组。 • 然后在 GPU 这样就能保证之前其他线程的 local_sum 都已经写入成功了。线程组（ warp ）： 32 个线程为一组 • 其实， SM 对线程的调度是按照 32 个线程为一组来调度的。也就是说， 0-31 号线程为一组， 32-63 号线程为一组，以此类推。 • 因此 SM 的调度无论如何都是对一整个线程组（ warp ）进行的，不可能出现一个组里只有单独一个线程被调走，要么 32 个线程一起调走。

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 25 条前往

页

Hello 算法 1.0 0b4 C++0b5 1.1 1.2 简体中文简体中文高性性能高性能并行编程优化课件 01 02 10 06 08

分类

语言

格式

Hello 算法 1.0.0b4 C++版

Hello 算法 1.0.0b5 C++版

Hello 算法 1.0.0 C++版

Hello 算法 1.1.0 C++ 版

Hello 算法 1.2.0 简体中文 C++ 版

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程