高并发 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

char 一样只占据 1 字节（ al 寄存器就 1 字节） • 而 C 语言可以自动把 bool 转换成 int 类型（ movzx 把 1 字节的 al 转换成 4 字节的 eax ，零扩展：高 3 字节填充零） • 返回类型 int 占据 4 字节（ eax 寄存器就是 4 字节的） • 返回值都放 eax 寄存器（刚刚算得的就在 eax ，直接返回）无分支优化：从语法角度分析

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

可见数据量较小时，实际带宽甚至超过了理论带宽极限 42672 MB/s ！ • 而数据量足够大时，才回落到正常的带宽。 • 这是为什么？ CPU 内部的高速缓存 • 原来 CPU 的厂商早就意识到了内存延迟高，读写效率低下的问题。因此他们在 CPU 内部引入了一片极小的存储器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的 a[w][z][y][x]; • 等价于： • float a[nw * nz * ny * nx]; • a[((w * nz + z) * ny + y) * nx + x]; 因为行列仅限于二维数组（矩阵），对高维数组可以直接按照他们的 xyz 下标名这样称呼： ZYX 序： (z * ny + y) * nx + x XYZ 序： z + nz * (y + x * ny) 简单来说：哪个索引最连续，就在后面，最不连普通的循环分块，需要一级缓存大于 blockSize^2 才能享受一级缓存的带宽，否则就会回落到二级缓存的带宽。这意味着我不能把 blockSize 调太大，否则在低配的电脑上效率无法最大化；也不能调太小，否则高配的电脑明明有更大的缓存，却无法全部发挥作用。 • 而且这样只利用到了一级缓存，要利用二级缓存就需要分块再分块，并且每个 blockSize 需要调的和二级缓存大小一致，这样换一台电脑还需要重新调参数。

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行摩尔定律：停止增长了吗？ • 晶体管的密度的确仍在指数增长，但处理器主频却开始停止增长了，甚至有所下降。 • 很长时间之前我们就可以达到 2GHz （ 2001 年 8 月），根据以及其他握手协议需要运行时间开销。在今天，双核或者四核机器在多线程应用方面，其性能不见得的是单核机器的两倍或者四倍。这一问题一直伴随 CPU 发展至今。并发和并行的区别 • 运用多线程的方式和动机，一般分为两种。 • 并发：单核处理器，操作系统通过时间片调度算法，轮换着执行着不同的线程，看起来就好像是同时运行一样，其实每一时刻只有一个线程在运行。目的：异步地处理多个不同的任务，避免同步造成的阻塞。同的任务，避免同步造成的阻塞。 • 并行：多核处理器，每个处理器执行一个线程，真正的同时运行。目的：将一个任务分派到多个核上，从而更快完成任务。举个例子 • 并发：某互联网公司购置了一台单核处理器的服务器，他正同时处理 4 个 HTTP 请求，如果是单线程的 listen-accept 循环，则在处理完 A 的请求之前， B 的请求就无法处理，造成“无响应”现象。 C

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

std::thread 不同在于：他的解构函数里会自动调用 join() 函数，从而保证 pool 解构时会自动等待全部线程执行完毕。小彭老师快乐吐槽时间 • 多线程、异步、无阻塞、并发，能提升程序响应速度，对现实世界中的软件工程至关重要。 • 反面教材： blender 在运行物理解算的时候，界面会卡住，算完一帧后窗口才能刷新一遍，导致解算过程中基本别想做事，这一定程度上归功于场景图，修改节点间的连接，为下一次解算做准备，同时当前已经启动的物理解算还能在后台继续正常运行。虽然 zeno 也用了 opengl ，但他用多进程成功在 opengl 的百般拖后腿下实现了并发。第 2 章：异步异步好帮手： std::async • std::async 接受一个带返回值的 lambda ，自身返回一个 std::future 对象。 • lambda 多个对象？每个对象一个 mutex 即可 • mtx1 用来锁定 arr1 ， mtx2 用来锁定 arr2 。 • 不同的对象，各有一个 mutex ，独立地上锁，可以避免不必要的锁定，提升高并发时的性能。 • 还用了一个 {} 包住 std::lock_guard ，限制其变量的作用域，从而可以让他在 } 之前解构并调用 unlock() ，也避免了和下面一个 lock_guard

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

delines/blob/master/CppCoreGuidelines.md) - [LearnCpp 中文版 ](https://learncpp-cn.github.io/) - [C++ 并发编程实战 ](https://www.bookstack.cn/read/Cpp_Concurrency_In_Action/README.md) - [ 因特尔 TBB 编程指南 ](https://www 的生命周期，否则会出现危险的空悬指针。比如右边这样：更智能的指针： shared_ptr • 使用起来很困难的原因，在于 unique_ptr 解决重复释放的方式是禁止拷贝，这样虽然有效率高的优势，但导致使用困难，容易犯错等。 • 相比之下，牺牲效率换来自由度的 shared_ptr 则允许拷贝，他解决重复释放的方式是通过引用计数： 1. 当一个 shared_ptr 初始化时，将计数器设为

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

g-truc/glm - 模仿 GLSL 语法的数学矢量 / 矩阵库（附带一些常用函数，随机数生成等） 4. Tencent/rapidjson - 单纯的 JSON 库，甚至没依赖 STL （可定制性高，工程美学经典） 5. ericniebler/range-v3 - C++20 ranges 库就是受到他启发（完全是头文件组成） 6. fmtlib/fmt - 格式化库，提供 std::format

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

0 码力 | 90 页 | 8.76 MB | 1 年前
3

共 30 条前往

页

C++高性性能高性能并行编程优化课件 07 06 05 04 03 02 01 17

分类

语言

格式