原子性 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Await-Tree Async Rust 可观测性的灵丹妙药 - 赵梓淇

Await-Tree Async Rust 可观测性的灵丹妙药赵梓淇 Bugen Zhao Await-Tree Async Rust 可观测性的灵丹妙药 Await-Tree 的设计原理与实现 2 回顾 Async Rust 的设计与痛点 1 Await-Tree 的应用与真实案例 3 Await-Tree Async Rust 可观测性的灵丹妙药 Await-Tree 的设计原理与实现 poll 驱动的状态机 • 组合嵌套为调度单元： Task • async fn 语法糖 Async Rust 观测与调试的痛点 Async Rust 回顾 • 特性： Future 灵活的可组合性 • 任意定制 Poll 的执行逻辑 (Join / Select / Timeout) • 动态的调用关系 • 痛点：观测与调试工具无法理解灵活的执行逻辑 • Backtrace 不够直观 ( 痛点：观测与调试工具无法还原 Pending Task 的执行状态 • 难以得知 Task 阻塞的位置和原因 • 难以调试 Async Stuck • ? 如何解决？ Await-Tree Async Rust 可观测性的灵丹妙药 Await-Tree 的设计原理与实现 2 回顾 Async Rust 的设计与痛点 1 Await-Tree 的应用与真实案例 3 设计目标 Await Tree 的设计原理与实现

0 码力 | 37 页 | 8.60 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

CUDA 的函数，如 cudaDeviceSynchronize() 。 • 他们出错时，并不会直接终止程序，也不会抛出 C++ 的异常，而是返回一个错误代码，告诉你出的具体什么错误，这是出于通用性考虑。 • 这个错误代码的类型是 cudaError_t ，其实就是个 enum 类型，相当于 int 。 • 可以通过 cudaGetErrorName 获取该 enum 的具体名字。这里显示错误号为 (managed) 上分配。 • 实际上这种“骗”来魔改类内部行为的操作，正是现代 C++ 的 concept 思想所在。因此替换 allocator 实际上是标准库允许的，因为他提升了标准库的泛用性。进一步：避免初始化为 0 • vector 在初始化的时候（或是之后 resize 的时候）会调用所有元素的无参构造函数，对 int 类型来说就是零初始化。然而这个初始化会是在 CPU 现在很多“老年”教材对 cpp 的认识也停留在 C++03 ， B 站 / 油管偶尔翻出几个介绍 C++11 新特性的视频已经算很先进很前卫了，然而现在 C++23 的标准都已经开始往官网上挂了…… 第 7 章：原子操作经典案例：数组求和 • 如何并行地对数组进行求和操作？ • 首先让我们试着用串行的思路来解题。 • 因为 __global__ 函数不能返回值，只能通过指针。因此我们先分配一个大小为

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

出现一方等着对方的同时持有了对方等着的锁的情况。解决 3 ：用 std::lock 同时对多个上锁 • 如果没办法保证上锁顺序一致，可以用标准库的 std::lock(mtx1, mtx2, ...) 函数，一次性对多个 mutex 上锁。 • 他接受任意多个 mutex 作为参数，并且他保证在无论任意线程中调用的顺序是否相同，都不会产生死锁问题。 std::lock 的 RAII 版本： std::scoped_lock 时自动调用 unlock_shared() ，更加安全了。 • shared_lock 同样支持 defer_lock 做参数， owns_lock() 判断等，同学们自己研究。只需一次性上锁，且符合 RAII 思想：访问者模式 Accessor 或者说 Viewer 模式，王鑫磊常用于设计 GPU 容器 OpenVDB 数据结构的访问，也是采用了 Accessor 的设计…… 并且还有 chrono 时间段和时间点作为参数。详见： https://en.cppreference.com/w/cpp/thread/condition_variable/wait_for 。第 7 章：原子操作经典案例：多个线程修改同一个计数器 • 多个线程同时往一个 int 变量里累加，这样肯定会出错，因为 counter += i 在 CPU 看来会变成三个指令： 1. 读取 counter

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

分块存储分块能减少 unordered_map 中存储的表项数量，从而减轻哈希的压力。但意味着键值在空间上需要具有一定的局域性，否则会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域性正是稀疏网格能够实现的一大前提，稍后详细讨论。在 16x16 分块的基础上，只用一个 bit 存储图片解释稀疏的好处。这些被写入的部分被称为激活元素 (active element) ，反之则是未激活 (inactive) 。这就是稀疏的好处，按需分配，自动扩容。分块则是利用了我们存储的数据常常有着空间局域性的特点，减轻哈希表的压力，同时在每个块内部也可以快乐地 SIMD 矢量化， CPU 自动预取之类的。第 2 章：位运算稀疏的好处：坐标可以是负数这样即使坐标为负数，或者可以是任意大的坐标，都不会产生越界错误。以有的指针被重复分配了两遍，写入了那个地址却没有实际被存到 m_data 这个指针数组里。因此结果不对，还造成了内存泄露。解决：使用互斥量和原子变量暴力解决方案就是用 std::mutex 避免多个线程同时访问。然而这样会严重影响性能，锁和原子多了，就根本并行不起来。教科书式的解决：二次判断法这样如果 block 已经非空，则可以不用上锁，减少上锁次数。如果 block 为空，则上锁；再次检测是否为空，空则分配内存，

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

int{3.14f} 会出错，因为 {} 是非强制转换。 2. Pig(“ 佩奇” , 3.14f) 不会出错，但是 Pig{“ 佩奇” , 3.14f} 会出错，原因同上，更安全。 3. 可读性： Pig(1, 2) 则 Pig 有可能是个函数， Pig{1, 2} 看起来更明确。 • 其实谷歌在其 Code Style 中也明确提出别再通过 () 调用构造函数，需要类型转换时应该用：等基础类型 2. void *, Object * 等指针类型 3. 完全由这些类型组成的类 • 这些类型被称为 POD （ plain-old-data ）。 • POD 的存在是出于兼容性和性能的考虑。 << 取决于内存的随机值编译器默认生成的构造函数：无参数（ POD 陷阱解决方案） • 不过我们可以手动指定初始化 weight 为 0 。 • 通过 {} 语法指定的初始化值，会在编译器自用了原始指针（假定他释放前我必然被释放）。因为因此我们完全可以把 m_child 变成一个标志这“完全所有权”的 unique_ptr 。 • 这样也不需要 shared_ptr 维护一个原子计数器的开销了。休息一下……再想想？ • 接下来你会发现，在智能指针的管理下，某些类型的对象并不是总是需要用到拷贝和移动。三五法则：什么时候需要担心 • 一般来说，可以认为符合三五法则的类型是安全的。

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

的芯片？ • 结论：狭义的摩尔定律没有失效。但晶体管数量的增加，不再用于继续提升单核频率，转而用于增加核心数量。单核性能不再指数增长！你醒啦？免费午餐结束了！指望靠单核性能的增长带来程序性能提升的时代一去不复返了，现在要我们动动手为多核优化一下老的程序，才能搭上摩尔定律的顺风车。神话与现实： 2 * 3GHz < 6GHz • 一个由双核组成的 3GHz 的 CPU 实际上提供了显然不是。甚至在两个处理器上同时运行两个线程也不见得可以获得两倍的性能。相似的，大多数多线程的应用不会比双核处理器的两倍快。他们应该比单核处理器运行的快，但是性能毕竟不是线性增长。 • 为什么无法做到呢？首先，为了保证缓存一致性以及其他握手协议需要运行时间开销。在今天，双核或者四核机器在多线程应用方面，其性能不见得的是单核机器的两倍或者四倍。这一问题一直伴随 CPU 发展至今。并发和并行的区别 • 运用多线程的方式和动机，一般分为两种。 push_back 进去的元素，扩容时不需要移动位置，从而指针和迭代器不会失效。 • 同时他的 push_back 会额外返回一个迭代器（ iterator ），指向刚刚插入的对象。 grow_by 一次性扩容一定大小 • push_back 一次只能推入一个元素。 • 而 grow_by(n) 则可以一次扩充 n 个元素。他同样是返回一个迭代器（ iterator ），之后可以通过迭代器的

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

main 退出的时候调用。 3. 如果从未进入过函数（构造函数从未调用过）则 main 退出时也不会调用解构函数。 • 并且即使多个线程同时调用了 func ，这个变量的初始化依然保证是原子的（ C++11 起）。 • 这就是函数静态初始化 (func-static-init) 大法。函数静态初始化可用于“懒汉单例模式” • 如右图。 • getMyClassInstance()

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

时是需要连续两次条件跳转指令的。但是在 -O3 的淫威下，编译器把其中一个条件跳转自动优化掉了（ cmovle 和 cmovl ）。可惜另一个 if-else 的条件跳转指令（ js ）没有被成功优化掉（编译器具有短视性）。可以看到“摆烂”版本的三目运算符 ?: 和 if-else 其实是一样的，也只优化掉了其中一个条件跳转。但是在“妙用加减乘”的版本里，两次比较依然都是高效的无分支指令（ setg 和 cmovbe 交给编译器自动优化掉。 • 一般只需要把 if-else 改成三目运算符 ?: 编译器就能成功识别了（见开头的例子）。 • 建议只有当性能遇到瓶颈时，再去针对性对 “热代码”优化，而不是一股脑儿全部改成无分支，影响可读性。 “ 妙用加减乘”的无分支优化是万能的吗？ • return x >= 0 ? sqrt(x) : 0; • 能不能优化成： • return (x >= 0) 比一堆 if-else 更高效。但是实际上在编译器看来是一样的，不管你 if-else 还是 switch ，他都会想方设法帮你优化成查表法。 • 所以不用纠结性能，你觉得哪种写起来可读性强，容易维护，你就怎么写。无分支优化的方法：查表法 • 如果每个判断的值是连续的，这种情况一般会建立一个表（数组）。 • 这个表里每个元素就是原来要返回的一个个值，索引就是要判断的参数

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

2048 MB 的数据。 • 花费了 0.0656 秒。 • 因此带宽是 31198 MB/s 。 • 和理论带宽 42672 MB/s 相差不多，符合我的预期。第 2 章：缓存与局域性针对不同数据量大小的带宽测试 • 我们试试看 a 不同的大小，对带宽有什么影响。针对不同数据量大小的带宽测试（续） • 可见数据量较小时，实际带宽甚至超过了理论带宽极限 42672 MB/s 跨步，则中间的缓存行没有被读取，从而变快了。缓存行决定数据的粒度 • 结论：访问内存的用时，和访问的字节数量无关，和访问的每个字节所在的缓存行数量有关。 • 可见，能否很好的利用缓存，和程序访问内存的空间局域性有关。缓存行决定数据的粒度（续） • 所以我们设计数据结构时，应该把数据存储的尽可能紧凑，不要松散排列。最好每个缓存行里要么有数据，要么没数据，避免读取缓存行时浪费一部分空间没用。 4KB 那么大，即 64 个缓存行，而不是一个。 • 这样一次随机访问之后会伴随着 64 次顺序访问，能被 CPU 检测到，从而启动缓存行预取，避免了等待数据抵达前空转浪费时间。页对齐的重要性 • 为什么要 4KB ？原来现在操作系统管理内存是用分页（ page ），程序的内存是一页一页贴在地址空间中的，有些地方可能不可访问，或者还没有分配，则把这个页设为不可用状态，访问他就会出错，进入内核模式。

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

引用同一个头文件造成冲突，并不是必须 static 才内联如果你不确定某修改是否能提升性能，那你最好实际测一下，不要脑内模拟 inline 在现代 C++ 中有其他含义，但和内联没有关系，他是一个迷惑性的名字 “ 大厂面试官”笑话 • 同样沦为笑柄的还有 register 关键字，号称：可以让一个变量使用寄存器存储，更高效。 • 都能把等差数列求和优化成 5050 的编译器笑着看着你，说道：还要你提醒吗？如果优化了： b = b; 最后 b 没有改变。导致优化后结果不一样，这就是编译器放弃优化的原因。告诉编译器别怕指针别名： __restrict 关键字 __restrict 是一个提示性的关键字，是程序员向编译器保证：这些指针之间不会发生重叠！从而他可以放心地优化成功： __restrict 关键字：只需加在非 const 的即可实际上， __restrict 只需要加在所有具有写入以他用了。不过注意这样编译出的程序，可能放到别人不支持 AVX 的电脑上没法运行。数组清零：自动调用标准库的 memset memcpy 同理，不必为了高效，手动改写成对 memcpy/memset 的调用，影响可读性。编译器会自动分析你是在做拷贝或是清零，并优化成对标准库这俩的调用。从 0 到 1024 填充： SIMD 加速 paddd ：四个 int 的加法 movdqa ：加载四个 int 从 0

0 码力 | 108 页 | 9.47 MB | 1 年前
3

共 28 条前往

页

赵梓 Await-Tree Rust C++高性性能高性能并行编程优化课件 08 05 10 02 06 07 04

分类

语言

格式

Await-Tree Async Rust 可观测性的灵丹妙药 - 赵梓淇

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化