条件判断 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

洗脸刷牙烧开水吃饭看比站拉粑粑 5 5 10 20 条件跳转指令 • 让不占用相同资源的任务同时进行，这也是 CPU 流水线的初衷。但理想是美好的，现实是骨感的，对于程序来说，指令不只是一个个简单的任务，有时候我们需要做判断，来决定要执行的具体任务，这就是分支，在汇编语言中体现为条件跳转指令。 • 例如我们这里给任务清单加一个，如果烧开水时被烫伤，则直接去医院的特殊任务。看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股去医院 10 分钟全身无条件跳转指令 • 还有一个小问题，就是执行正常的分支走到“拉粑粑”后，还会去医院。 • 为了在正常分支里不去医院，我们在“拉粑粑”后面加一条无条件跳转指令，不论条件如何，直接跳转到去医院的下一条指令，也就是程序结束。 • if (! 烫伤 ) { • 刷牙 ; 看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股（无条件）跳转到结束去医院 10 分钟全身结束跳转指令对流水线效率的影响 • 然而跳转指令的存在使得流水线的并行变得很困难了。例如我们本来可以烧开水和刷牙同时进行节省时间的，但是因为烧好开水以后还要判断“是否烫伤”才能决定接下来是正常刷牙还是去医院。这意味着流水线不得不在跳转指令前后发生断层（俗称流水线里的气泡）。

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

：用 std::try_to_lock 做参数 • 和无参数相比，他会调用 mtx1.try_lock() 而不是 mtx1.lock() 。之后，可以用 grd.owns_lock() 判断是否上锁成功。 std::unique_lock ：用 std::adopt_lock 做参数 • 如果当前 mutex 已经上锁了，但是之后仍然希望用 RAII 思想在解构时候自动调用无非是调用其构造参数名为 lock() 的成员函数，所以 std::unique_lock 也可以作为 std::lock_guard 的构造参数！ • 这种只要具有某些指定名字的成员函数，就判断一个类是否满足某些功能的思想，在 Python 称为鸭子类型，而 C++ 称为 concept （概念）。比起虚函数和动态多态的接口抽象， concept 使实现和接口更加解耦合且没有性能损失。程安全的，调用本函数之前需要保证某 mutex 已经上锁。” 解决 2 ：改用 std::recursive_mutex • 如果实在不能改的话，可以用 std::recursive_mutex 。他会自动判断是不是同一个线程 lock() 了多次同一个锁，如果是则让计数器加 1 ，之后 unlock() 会让计数器减 1 ，减到 0 时才真正解锁。但是相比普通的 std::mutex 有一定性能损失。

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

CudaSurfaceAccessor ，不管理资源，仅仅是指向资源的一个弱引用，可以随意拷贝。并把读写访问的方法（ surf3Dread ）定义在访问者类。 CUDA 表面对象：封装 • 此外，表面对象还支持自动判断 x,y,z 坐标是否越界， surf3Dread/write 的最后一个参数，用于指定出现越界时要采取的行动： • cudaBoundaryModeTrap ：一旦越界就奔溃。 • c n+100 钳制到 n-1 。 • cudaBoundaryModeZero ：对于读来说越界会读取到 0 ；对于写来说越界会放弃写入，不修改数组中的任何值。 • 表面对象保障了高效的访存，并且自动判断越界，体现了 GPU 作为图形学专业硬件的能力。 CUDA 纹理对象：封装 • 表面对象访问数组是可读可写的。纹理对象也可以访问数组，不过是只读的。好处是他可以通过浮点坐标来访问，且提供了线性滤波的能力。在 Blender 中查看导出的结果边界条件边界条件：初始化边界条件：添加判断边界的版本边界条件：仅在第一层额外判断边界条件进一步改进 VDB 导出：支持导出多个网格，并指定名称进一步改进 VDB 导出： P-IMPL 模式进一步改进 VDB 导出： F-IMPL 模式 Blender 渲染结果改进改进边界条件：外部边界流出而不是反弹，内部边界可以流出速度

0 码力 | 58 页 | 14.90 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

码比较），如果相等则继续比较下一个，不相等则直接以这个比较的结果返回。如果比到末尾都相等且字符串长度一样，则视为相等。警告：千万别用 set 做字符串集合。这样只会按字符串指针的地址去判断相等，而不是所指向字符串的内容。 set 的排序：自定义排序函数 • set 作为模板类，其实有两个模板参数： set • 第一个 T 是容器内元素的类型，例如 set 内部没有用到 == 运算符，而是调用了两次比较函子来判断的。逻辑是： • 若 a 不小于 b 且 b 不小于 a ，则视为 a 等于 b ，所以这就是为什么 set 只需要一个比较函子，不需要相等函子的原因。 set 的排序：自定义排序函数 • 所以我们这里写了 a[0] < b[0] 就相当于让相等条件变成了 a[0] == b[0] 。也就是说只要第一个字符相等就视为字符串相 std::next 函数，他的内部实现相当于这样： • 没错，他会自动判断迭代器是否支持 + 运算，如果不支持，会改为比较低效的调用 n 次 ++ 。 std::advance 等价于 += • 刚刚的 std::next 会返回自增后迭代器。 • 还有 std::advance 会就地自增作为引用传入的迭代器，他同样会判断是否支持 += 来决定要采用哪一种实现。 • 区别： advance

0 码力 | 83 页 | 10.23 MB | 1 年前
3
谈谈MYSQL那点事

可能会有更好的性能。应用优化应用优化编写高效的编写高效的 SQL SQL （一）（一）  能够快速缩小结果集的能够快速缩小结果集的 WHERE WHERE 条件写在前面，如果有恒量条件，条件写在前面，如果有恒量条件，也尽量放在前面也尽量放在前面  尽量避免使用尽量避免使用 GROUP BY GROUP BY 、、 DISTINCT DISTINCT 左边进行算术或表达式运算，否则系统将左边进行算术或表达式运算，否则系统将可能无法正确使用索引可能无法正确使用索引  尽量不要在尽量不要在 where where 条件中使用函数，否则将不能使用索引条件中使用函数，否则将不能使用索引  避免使用避免使用 select *, select *, 只取需要的字段只取需要的字段  对于大数据量的查询，尽量避免在对于大数据量的查询，尽量避免在 IO 开销开销  只关心需要的表和满足条件的数据只关心需要的表和满足条件的数据  适当使用临时表或表变量适当使用临时表或表变量  对于连续的数值，使用对于连续的数值，使用 between between 代替代替 in in  where where 字句中尽量不要使用字句中尽量不要使用 CASE CASE 条件条件  尽量不用触发器，特别是在大数据表上

0 码力 | 38 页 | 2.04 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

那这样需要手动写，用起来还不如重载方便了？ • 别担心， C++ 规定： • 当模板类型参数 T 作为函数参数时，则可以省略该模板参数。自动根据调用者的参数判断。模板函数：特化的重载 • 有时候，一个统一的实现（比如 t * 2 ）满足不了某些特殊情况。比如 std::string 就不能用乘法来重复，这时候我们需要用 t + t 来替代，怎么办呢？ • 在右边这个案例中，我们声明了一个 sumto 函数，作用是求出从 1 到 n 所有数字的和。 • 用一个 debug 参数控制是否输出调试信息。 • 但是这样 debug 是运行时判断，这样即使是 debug 为 false 也会浪费 CPU 时间。模板的应用：编译期优化案例（续） • 因此可以把 debug 改成模板参数，这样就是编译期常量。编译器会生成两份函数模板的难题：编译期常量的限制 • 编译期常量的限制就在于他不能通过运行时变量组成的表达式来指定。比如： • 这里在 if constexpr 的表达式里用到了运行时变量，从而无法作为编译期分支的条件。模板的难题：编译期常量的限制（续） • 除了 if constexpr 的表达式不能用运行时变量，模板尖括号内的参数也不能： • 可以在 bool debug 变量的定义前面加上 constexpr

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 前置条件 • 学过 C/C++ 语言编程。 • 理解 malloc/free 之类的概念。 • 熟悉 STL 中的容器、函数模板等。 • 英伟达 GTX900 及以上显卡。 • CUDA 11 及以上。指令码。最后再链接成同一个文件，看起来好像只编译了一次一样，实际上你的代码会被预处理很多次。 • 他在 GPU 编译模式下会定义 __CUDA_ARCH__ 这个宏，利用 #ifdef 判断该宏是否定义，就可以判断当前是否处于 GPU 模式，从而实现一个函数针对 GPU 和 CPU 生成两份源码级不同的代码。 __CUDA_ARCH__ 是个版本号 • 其实 __CUDA_ARCH__ cudaMallocManaged 、 cudaFree • 如果我没记错的话，统一内存是从 Pascal 架构开始支持的，也就是 GTX9 开头及以上。 • 虽然方便，但并非完全没有开销，有条件的话还是尽量用分离的设备内存和主机内存吧。第 3 章：数组分配数组 • 如 malloc 一样，可以用 cudaMalloc 配合 n * sizeof(int) ，分配一个大小为 n

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

categories[key].push_back(str); } • 则 categories 最后为： • {‘h’: {“happy”, “hello”}, ‘w’: {“world”}}; 第二章：判断与删除不鞋习的小彭友就会进到这儿 ! 不鞋习的小彭友就会进到这儿 ! 找不到时，自动采用默认值 • 要求：当 m 中有 “ key” 时返回 key 对应的值，否则返回指定的默认值 “ default” 覆盖旧值创建并写入值 m.at(key) = val 覆盖旧值抛出 out_of_range 异常判断 if (m.count(key)) 返回 1 返回 0 删除 m.erase(key) 删除这个值默默放弃小彭老师四定律：读取，要用 at 。写入，要用 [] 。判断存在，用 count 。删除，用 erase 。这四个已经够用了。 map 常用函数不同情况下的行为分析 m.insert_or_assign(key, val) 覆盖旧值创建并写入值（更高效， C++17 新增） m.at(key) = val 覆盖旧值抛出 out_of_range 异常判断 if (m.count(key)) 返回 1 返回 0 删除 m.erase(key) 删除这个值默默放弃对学有余力的同学，再扩充为小彭老师六定律：安全的读取，要用 val = m.at(key)

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

4 个 float 打包到一个 xmm 寄存器里同时运算，很像数学中矢量的逐元素加法。因此 SIMD 又被称为矢量，而原始的一次只能处理 1 个 float 的方式，则称为标量。 • 在一定条件下，编译器能够把一个处理标量 float 的代码，转换成一个利用 SIMD 指令的，处理矢量 float 的代码，从而增强你程序的吞吐能力！ • 通常认为利用同时处理 4 个 float 的 SIMD 可以合并为一个 int64 四个 int32 可以合并为一个 __m128 八个 int32 可以合并为一个 __m256 让编译器自动检测当前硬件支持的指令集 -march=native 让编译器自动判断当前硬件支持的指令。老师的电脑支持 AVX 指令集，所以他用了。不过注意这样编译出的程序，可能放到别人不支持 AVX 的电脑上没法运行。数组清零：自动调用标准库的 memset memcpy a, b 指针的差是否超过 1024 来判断是否有重叠现象。 1. 如果没有重叠，则跳转到 SIMD 版本高效运行。 2. 如果重叠，则跳转到标量版本低效运行，但至少不会错。 SIMD 版标量版循环中的矢量化：解决指针别名所以，让我们加上 __restrict 关键字，打消编译器的顾虑！这下只需要生成一个 SIMD 版本了，没有了运行时判断重叠的焦虑。 SIMD 版循环中的矢量化：

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

绕过缓存，直接写入： _mm_stream_si32 • 因此需要把 16 次 float 用 SIMD 指令合并成一次写入，且写入的地址要对齐到 64 字节，才能避免浪费读取的带宽。这样的条件实在有点苛刻，毕竟小彭老师的电脑还不支持 AVX512 。 • 可以用 _mm_stream_si32 指令代替直接赋值的写入，他能够绕开缓存，将一个 4 字节的写入操作，挂起到临时队列，等凑满 16 个 float = 64 字节（缓存行大小），一个缓存行预取一遍就够了。 • 如何每隔 16 次 x++ 才执行 _mm_prefetch 一次呢？暴力通过 if (x % 16) 判断吗？不行，涉及到分支也太低效了！ • 这时可以先将外层循环改为针对另一个变量， xBase 的跨步为 16 的循环，即 xBase += 16 。然后内部先执行一次 _mm_prefetch 然后，通过莫顿解码，获取 X ， Y 分量。 • 这样就是 Z 字型曲线遍历的了，不信的话可以打印 xBase, yBase 出来看一看。 • 缺点： nx 和 ny 必须是二的幂次方，否则需要一些特殊判断防止越界。图片直观感受莫顿码分块使用 stream 指令直写 • 可惜因为 a(y, x) 这里是跳跃访问，不能用 _mm_load_ps 一次性加载，然后用 _mm_stream_ps

0 码力 | 147 页 | 18.88 MB | 1 年前
3

共 21 条前往

页

C++高性性能高性能并行编程优化课件 05 09 14 MySQL 03 08 17 04 07

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

谈谈MYSQL那点事

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化