量化⽅案 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

从稀疏数据结构到量化数据类型 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、，反之则是未激活 (inactive) 。这就是稀疏的好处，按需分配，自动扩容。分块则是利用了我们存储的数据常常有着空间局域性的特点，减轻哈希表的压力，同时在每个块内部也可以快乐地 SIMD 矢量化， CPU 自动预取之类的。第 2 章：位运算稀疏的好处：坐标可以是负数这样即使坐标为负数，或者可以是任意大的坐标，都不会产生越界错误。但是分块存储时负数却导致出错了为什么 segf collapse(2) 遍历二维区间。把 func 捕获为 firstprivate ，从而支持用 lambda 捕获的访问者模式。实现访问者模式 • 额，总之就是每一层都有一个缓存。第 5 章：量化整型使用 int ：每个占据 4 字节 • 记得我第七课说过，一个简单的循环体往往会导致内存成为瓶颈（ memory- bound ）。 • 右边就是一个很好的例子。使用 int64_t

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

• addps ：四个 float 加法。 • addpd ：两个 double 加法。省流助手：如果你看到编译器生成的汇编里，有大量 ss 结尾的指令则说明矢量化失败；如果看到大多数都是 ps 结尾则说明矢量化成功。 xmm0 xmm1 xmm0 addss %xmm1, %xmm0 addps %xmm1, %xmm0 xmm0 xmm1 xmm0 为什么需要 SIMD 语言。编译器优化：合并写入将两个 int32 的写入合并为一个 int64 的写入。合并写入：不能跳跃但如果访问的两个元素地址间有跳跃，就不能合并了。第 4 章：矢量化更宽的合并写入：矢量化指令（ SIMD ）两个 int32 可以合并为一个 int64 四个 int32 可以合并为一个 __m128 xmm0 由 SSE 引入，是个 128 位寄存器他可以一次存储看不懂？很简单，假设 n = 1023 ：先对前 1020 个元素用 SIMD 指令填入，每次处理 4 个剩下 3 个元素用传统的标量方式填入，每次处理 1 个思想：对边界特殊处理，而对大部分数据能够矢量化编译器做优化时会自动处理边界特判。如果你是自己手写 SIMD 指令的话就要考虑一下这个。 n 总是 4 的倍数？避免边界特判如果你能保证 n 总是 4 的倍数，也可以这样写：编译器会发现

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU 有 4 核且矢量化成功： 1 次浮点读写 ≈ 128 次浮点加法常见操作所花费的时间 • 图中加法 (add) 和乘法 (mul) 都指的整数。 • 区别是浮点的乘法和加法基本是一样速度。要 SIMD 矢量化的话可能还是要 SOA 或 AOSOA ，比如 hw04 那种的。而 “ pos 和 vel 应该用 SOA 分开存”是没问题的。 • 而且 SOA 在遇到存储不是 vector ，而是稀疏的哈希网格之类索引有一定开销的数据结构，可能就不适合了。这就是为什么王鑫磊最喜欢 AOSOA ：在高层保持 AOS 的统一索引，底层又享受 SOA 带来的矢量化和缓存行预取等好处……就是随机索引比较麻烦。写回执行完成，然后重新读取到缓存，反而更低效。 • 因此，仅当这些情况： 1. 该数组只有写入，之前完全没有读取过。 2. 之后没有再读取该数组的地方。 • 才应该用 stream 指令。 4 倍矢量化的版本： _mm_stream_ps • _mm_stream_si32 可以一次性写入 4 字节到挂起队列。而 _mm_stream_ps 可以一次性写入 16 字节到挂起队列，更加高

0 码力 | 147 页 | 18.88 MB | 1 年前
3
Rust 异步并发框架在移动端的应用 - 陈明煜

IO 的场景。具有非常强大的生态。 tokio 第一个适配 Rust async/await 原语的运行时库，与 tokio 类似支持异步 IO ，目前已经半废弃 async-std 更轻量化的调度框架，功能被拆分到其他多个库中， IO 密集场景性能不如 Tokio smol Rayon 并非异步运行时。它通过同步多线程模型提供了并行迭代器功能，适用于处理 CPU 密集型计算任务

0 码力 | 25 页 | 1.64 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

局限性大，内部推广难度极高，做完后维护成本高价值难被证明低采购成本、低实施成本，内置模板库和最佳实践；高扩展性、技术先进性强，可灵活广泛接入现有工具链和业务场景基于代码管理的 DevOps 方案 Gitee 平台 GitLab 平台局限性大、全流程安全性低维护成本高支持多个服务并行构建部署、产品级发布，可灵活安全接入多个代码仓及周边工具链 Zadig 与现存 DevOps 整体生产力提升一倍以上 4. 大幅降低发布事故和错误率自动化测试场景：上千测试用例为发布保驾护航 — — 字节跳动 - 飞书 S R E 工程师 “ Z a d i g 解决方案面向开源，可用性极高，通用性场景适配性强，重复利用度高。市面上的其他产品基本没办法解决微服务联调的问 • 三套环境（ dev 、 qa 、 prod ）现状：基于 GitLab + Helm Chart 模版 + 多套 values 方案一： G e r r i t + Z a d i g 方案二： G i t l a b + Z a d i g 非核心服务：采用单分支模型 m a s t e r 发版。核心服

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

auto_partitioner 快 3.31 倍原因 • tbb::simple_partitioner 能够按照给定的粒度大小（ grain ）将矩阵进行分块。块内部小区域按照常规的两层循环访问以便矢量化，块外部大区域则以类似 Z 字型的曲线遍历，这样能保证每次访问的数据在地址上比较靠近，并且都是最近访问过的，从而已经在缓存里可以直接读写，避免了从主内存读写的超高延迟。 • 下次课会进一步深入探讨访存优化，详细剖析

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

ghost cell 处理方式，这里用了 std::min 和 std::max 来防止访问越界。主要是 GPU 的 SIMT 处理这个比较擅长，不像 CPU 如果这样来钳制可能导致矢量化失败。减轻 membound ：一次代替四次迭代 • 和第七课提到的循环合并法局部迭代一样的方式。 • 不过这里改用了 GPU 的板块共享内存，线程之间自动并行，没有像 CPU 那样用循环。

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 7 条前往

页

C++高性性能高性能并行编程优化课件 10 04 07 陈明煜 2023RustChinaConf Zadig 面向开发开发者原生 DevOps 平台 06 08

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

Rust 异步并发框架在移动端的应用 - 陈明煜

Zadig 面向开发者的云原生 DevOps 平台

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程