内核层 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

为什么要 4KB ？原来现在操作系统管理内存是用分页（ page ），程序的内存是一页一页贴在地址空间中的，有些地方可能不可访问，或者还没有分配，则把这个页设为不可用状态，访问他就会出错，进入内核模式。 • 因此硬件出于安全，预取不能跨越页边界，否则可能会触发不必要的 page fault 。所以我们选用页的大小，因为本来就不能跨页顺序预取，所以被我们切断掉也无所谓。 • 另外，我们可以用 malloc 时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经 malloc 过的地址区间，则执行实际的内存分配，并标记该段内存为“可用”，下次访问就不会再产生缺页中断了；而如果用户写入的地址根本不是他初始化数组时，内存被写入，所以操作系统这时候才开始实际分配内存。 • 刚才的案例里，不会初始化的 malloc ，第一次往里面赋值时，因为这时操作系统还没有给这个数组分配内存，所以会触发缺页中断，进入操作系统内核给数组分配内存，是内核执行内存分配的这个动作，花费了额外的时间。而第二次因为内存已经被分配上了，所以再次访问也不会触发缺页中断，所以看起来比第一次快很多。进一步：分配是按页面（ 4KB ）来管理的 •

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

Concurrency in Action ）不一定就是完美解决方案，要根据实际情况判断。真正的解决： tbb::spin_mutex 其实主要的瓶颈在于 std::mutex 会切换到操作系统内核中去调度，非常低效。而 tbb::spin_mutex 则是基于硬件原子指令的，完全用户态的实现。区别： std::mutex 的陷入等待会让操作系统挂起该线程，以切换到另一个；而 tbb::spin_mutex parallel for collapse(2) 遍历二维区间。把 func 捕获为 firstprivate ，从而支持用 lambda 捕获的访问者模式。实现访问者模式 • 额，总之就是每一层都有一个缓存。第 5 章：量化整型使用 int ：每个占据 4 字节 • 记得我第七课说过，一个简单的循环体往往会导致内存成为瓶颈（ memory- bound ）。 • 右边就是一个很好的例子。 malloc 时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经 malloc 过的地址区间，则执行实际的内存分配，并标记该段内存为“可用”，下次访问就不会再产生缺页中断了；而如果用户写入的地址根本不是他

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

的三维数组来表示。 • 定义求散度的核函数，首先读取速度场周围六个元素的值，然后上下做差得到散度。投影部分： jacobi 迭代求解压强投影部分：速度减去压强的梯度投影部分：初步实现 • 现在调用这些内核，让 jacobi 迭代 400 次，看看效果。 • 当然， jacobi 迭代因为需要写入 pre 的同时读取 pre ，所以也要用双缓冲。投影部分：计算未消除的散度为了评估效果的好坏，：分离实现 CMake ：使用 CUDA 编译器，链接 OpenVDB 在 Blender 中查看导出的结果边界条件边界条件：初始化边界条件：添加判断边界的版本边界条件：仅在第一层额外判断边界条件进一步改进 VDB 导出：支持导出多个网格，并指定名称进一步改进 VDB 导出： P-IMPL 模式进一步改进 VDB 导出： F-IMPL 模式 Blender 渲染结果

0 码力 | 58 页 | 14.90 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

暴力解决：用 mutex 上锁 • 这样的确可以防止多个线程同时修改 counter 变量，从而不会冲突。 • 问题： mutex 太过重量级，他会让线程被挂起，从而需要通过系统调用，进入内核层，调度到其他线程执行，有很大的开销。 • 可我们只是想要修改一个小小的 int 变量而已，用昂贵的 mutex 严重影响了效率。建议用 atomic ：有专门的硬件指令加持 •

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

关键字给类定义一个虚函数，他其实就是在类成员里加了一个函数指针。 • 而在构造函数里，会把当前类重载过的虚函数，赋予给那个函数指针，实现多态。 • 虚函数是 C++ 的语法糖，纯 C 的 Linux 内核中也用到多态，就是用函数指针实现的。例如左图中的虚函数，和右边的函数指针版本等价。因此性能分析时，把虚函数视为函数指针。 • 注：实际中虚函数往往有很多个，为了存储空间的高效利用，会把多个虚函数打包成一个数组，称之

0 码力 | 47 页 | 8.45 MB | 1 年前
3
Hello 算法 1.0.0b1 C++版

省略所有系数。例如，循环 2? 次、5? + 1 次、⋯⋯，都可以化简记为 ? 次，因为 ? 前面的系数对时间复杂度也不产生影响。 3. 循环嵌套时使用乘法。总操作数量等于外层循环和内层循环操作数量之积，每一层循环依然可以分别套用上述 1. 和 2. 技巧。以下示例展示了使用上述技巧前、后的统计结果。 ?(?) = 2?(? + 1) + (5? + 1) + 2 完整统计 (‑.‑|||) = logRecur(float n) { if (n <= 1) return 0; return logRecur(n / 2) + 1; } 线性对数阶 ?(? log ?) 线性对数阶常出现于嵌套循环中，两层循环的时间复杂度分别为 ?(log ?) 和 ?(?) 。主流排序算法的时间复杂度都是 ?(? log ?) ，例如快速排序、归并排序、堆排序等。 2. 复杂度分析 hello‑algo.com 个互不重复的元素，求其所有可能的排列方案，则方案数量为 ?! = ? × (? − 1) × (? − 2) × ⋯ × 2 × 1 阶乘常使用递归实现。例如以下代码，第一层分裂出 ? 个，第二层分裂出 ? − 1 个，⋯⋯，直至到第 ? 层时终止分裂。 // === File: time_complexity.cpp === /* 阶乘阶（递归实现） */ int factorialRecur(int

0 码力 | 187 页 | 14.71 MB | 1 年前
3
Hello 算法 1.0.0b2 C++版

省略所有系数。例如，循环 2? 次、5? + 1 次、⋯⋯，都可以化简记为 ? 次，因为 ? 前面的系数对时间复杂度也不产生影响。 3. 循环嵌套时使用乘法。总操作数量等于外层循环和内层循环操作数量之积，每一层循环依然可以分别套用上述 1. 和 2. 技巧。以下示例展示了使用上述技巧前、后的统计结果。 ?(?) = 2?(? + 1) + (5? + 1) + 2 完整统计 (‑.‑|||) = logRecur(float n) { if (n <= 1) return 0; return logRecur(n / 2) + 1; } 线性对数阶 ?(? log ?) 线性对数阶常出现于嵌套循环中，两层循环的时间复杂度分别为 ?(log ?) 和 ?(?) 。主流排序算法的时间复杂度都是 ?(? log ?) ，例如快速排序、归并排序、堆排序等。 2. 复杂度分析 hello‑algo.com 个互不重复的元素，求其所有可能的排列方案，则方案数量为 ?! = ? × (? − 1) × (? − 2) × ⋯ × 2 × 1 阶乘常使用递归实现。例如以下代码，第一层分裂出 ? 个，第二层分裂出 ? − 1 个，⋯⋯，直至到第 ? 层时终止分裂。 // === File: time_complexity.cpp === /* 阶乘阶（递归实现） */ int factorialRecur(int

0 码力 | 197 页 | 15.72 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

”。 2. 归：触发“终止条件”后，程序从最深层的递归函数开始逐层返回，汇聚每一层的结果。而从实现的角度看，递归代码主要包含三个要素。 1. 终止条件：用于决定什么时候由“递”转“归”。 2. 递归调用：对应“递”，函数调用自身，通常输入更小或更简化的参数。 3. 返回结果：对应“归”，将当前递归层级的结果返回至上一层。观察以下代码，我们只需调用函数 recur(n) ，就可以完成间效率上与迭代相当。这种情况被称为尾递归（tail recursion）。 ‧ 普通递归：当函数返回到上一层级的函数后，需要继续执行代码，因此系统需要保存上一层调用的上下文。 ‧ 尾递归：递归调用是函数返回前的最后一个操作，这意味着函数返回到上一层级后，无须继续执行其他操作，因此系统无须保存上一层函数的上下文。以计算 1 + 2 + ⋯ + ? 为例，我们可以将结果变量 res 设为函数参数，从而实现尾递归：省略所有系数。例如，循环 2? 次、5? + 1 次等，都可以简化记为 ? 次，因为 ? 前面的系数对时间复杂度没有影响。 3. 循环嵌套时使用乘法。总操作数量等于外层循环和内层循环操作数量之积，每一层循环依然可以分别套用第 1. 点和第 2. 点的技巧。给定一个函数，我们可以用上述技巧来统计操作数量： void algorithm(int n) { int a = 1; // +0（技巧

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0 C++版

”。 2. 归：触发“终止条件”后，程序从最深层的递归函数开始逐层返回，汇聚每一层的结果。而从实现的角度看，递归代码主要包含三个要素。 1. 终止条件：用于决定什么时候由“递”转“归”。 2. 递归调用：对应“递”，函数调用自身，通常输入更小或更简化的参数。 3. 返回结果：对应“归”，将当前递归层级的结果返回至上一层。观察以下代码，我们只需调用函数 recur(n) ，就可以完成间效率上与迭代相当。这种情况被称为「尾递归 tail recursion」。 ‧ 普通递归：当函数返回到上一层级的函数后，需要继续执行代码，因此系统需要保存上一层调用的上下文。 ‧ 尾递归：递归调用是函数返回前的最后一个操作，这意味着函数返回到上一层级后，无须继续执行其他操作，因此系统无须保存上一层函数的上下文。以计算 1 + 2 + ⋯ + ? 为例，我们可以将结果变量 res 设为函数参数，从而实现尾递归：省略所有系数。例如，循环 2? 次、5? + 1 次等，都可以简化记为 ? 次，因为 ? 前面的系数对时间复杂度没有影响。 3. 循环嵌套时使用乘法。总操作数量等于外层循环和内层循环操作数量之积，每一层循环依然可以分别套用第 1. 点和第 2. 点的技巧。给定一个函数，我们可以用上述技巧来统计操作数量： void algorithm(int n) { int a = 1; // +0（技巧

0 码力 | 378 页 | 17.59 MB | 1 年前
3
Hello 算法 1.0.0b5 C++版

”。 2. 归：触发“终止条件”后，程序从最深层的递归函数开始逐层返回，汇聚每一层的结果。而从实现的角度看，递归代码主要包含三个要素。 1. 终止条件：用于决定什么时候由“递”转“归”。 2. 递归调用：对应“递”，函数调用自身，通常输入更小或更简化的参数。 3. 返回结果：对应“归”，将当前递归层级的结果返回至上一层。观察以下代码，我们只需调用函数 recur(n) ，就可以完成间效率上与迭代相当。这种情况被称为「尾递归 tail recursion」。 ‧ 普通递归：当函数返回到上一层级的函数后，需要继续执行代码，因此系统需要保存上一层调用的上下文。 ‧ 尾递归：递归调用是函数返回前的最后一个操作，这意味着函数返回到上一层级后，无需继续执行其他操作，因此系统无需保存上一层函数的上下文。以计算 1 + 2 + ⋯ + ? 为例，我们可以将结果变量 res 设为函数参数，从而实现尾递归。省略所有系数。例如，循环 2? 次、5? + 1 次等，都可以简化记为 ? 次，因为 ? 前面的系数对时间复杂度没有影响。 3. 循环嵌套时使用乘法。总操作数量等于外层循环和内层循环操作数量之积，每一层循环依然可以分别套用第 1. 点和第 2. 点的技巧。给定一个函数，我们可以用上述技巧来统计操作数量。 void algorithm(int n) { int a = 1; // +0（技巧

0 码力 | 377 页 | 30.69 MB | 1 年前
3

共 24 条前往

页

C++高性性能高性能并行编程优化课件 07 10 09 05 Hello 算法 1.0 0b1 0b2 1.1 0b5

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

Hello 算法 1.0.0b1 C++版

Hello 算法 1.0.0b2 C++版

Hello 算法 1.1.0 C++ 版

Hello 算法 1.0.0 C++版

Hello 算法 1.0.0b5 C++版