控制结构 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

从稀疏数据结构到量化数据类型 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、是负数，则得到的模也是负数。 Python 的 % 就没问题 • 7 % 4 = 3 • -7 % 4 = 1 • Python 的模运算 a % b 的值始终是 [0, b) 区间内的正数，非常方便。对稀疏数据结构造成的问题 • 如果这里的 x 是负数，则 x % B 也是负数，会造成对 m_block 的越界访问。 • 因此 % 会返回负数对 CFD 用户来说是个很大的坑点，很多人想当然地用 % 做循环边界，是正数，则是向下取整。 Python 的 // 就没问题 • 7 // 4 = 1 • -7 // 4 = -2 • Python 的整除运算 a // b 的值始终是向下取整，非常方便。对稀疏数据结构造成的问题 • 也就是说，如果 x 是 [-3,0] 则 x / B 会是 0 ，如果 x 是 [0,3] 则 x / B 也是 0 。导致两个同时跑到一个 block 上去，会出错。高效的解决：位运算

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 DME.md) - [ 因特尔 TBB 编程指南 ](https://www.inf.ed.ac.uk/teaching/courses/ppls/TBBtutorial.pdf) - [ 并行体系结构与编程 (CMU 15-418)](https://www.bilibili.com/video/av48153629/) - [ 深入理解计算机原理 (CSAPP)](http://csapp.cs // 拷贝赋值 • 追求性能时推荐用拷贝构造，因为可以避免一次无参构造，拷贝赋值是出于需要临时修改对象的灵活性需要。 • 这个函数同样可以由 = delete 和 = default 控制是否默认生成。 • 注： return *this 是为了支持连等号 a = b = c; 编译器自动生成的函数：全家桶 • 其实，除了拷贝构造和拷贝赋值，编译器会自动生成的特殊函数还有这些：

0 码力 | 96 页 | 16.28 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

专注于数据智能技术赋能中国数字经济发展海致高性能图计算院士专家工作站郑纬民 - 海致科技首席科学家中国工程院院士、清华大学计算机科学与技术系教授、中国计算机学会前理事长，中国计算机系统结构的学科带头人，我国高性能计算和存储系统等方面的泰斗和先行者。 2021 年 3 月 25 日，海致科技与清华大学计算机科学与技术系共同建设高性能图计算院士专家工作站。高性能图计算是高性达到国际先进水平，其中异质图建模与表示学习技术和超大规模图学习系统处于国际领先水平。” 以终为始，以行为知，这一项目从图计算所面临的挑战出发，解决了大规模图数据所产生的建模能力不足、结构知识难用、巨量数据难算等技术挑战，实现了大规模复杂异质图数据的表示学习模型、语义推荐和风险管理关键技术，构建了完整的兼具理论指导与应用检验的大规模图数据智能分析系统与平台，满足了大数据时代从复杂异质图数据中进行知识同事 / 一致行动人 / 担保同地址 / 同设备登陆 /... 已签署 / 过期签署 / 意向签署 /... 已签署 / 过期签署 / 意向签署 /... 董监高 / 就职 / 实际控制人拥有 / 抵押 / 质押股权 / 资管计划 / 资金往来 / 担保 / 借贷 / 集团 / 控股 / 上下游 ... 父子 / 组合 / 继承转账 / 大额转账 / 频繁转

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

类特殊的控制字符 (control character) ： • 0 表示空字符（‘ \0’ ） • 9 表示 Tab 制表符（‘ \t’ ） • 10 表示换行（‘ \n’ ） • 13 表示回车（‘ \r’ ） • 27 表示 ESC 键（‘ \x1b’ ） • 127 表示 DEL 键（‘ \x7f’ ）等 • 0~31 和 127 这些整数，就构成了 ASCII 码中控制字符的部分。码中控制字符的部分。关于控制字符的一个冷知识 • 在 Linux 命令行中启动 cat 。 • 试试按 Ctrl+R ， Ctrl+E ， Ctrl+C 等一系列组合键，看到出现了什么？ • 可以看到显示的字符变成了 ^R ^E ^C 等… … • 这是 Unix 类系统显示控制字符的一种方式。 • 众所周知，我们常用 Ctrl+C 来发送中断信号（ SIGINT ）强制终止程序，这时常常会看到）强制终止程序，这时常常会看到一个 ^C 的字样，就是这样出现的。这里我们的 cat 程序收到 ^C 以后，就直接终止退出了。关于控制字符的一个冷知识 • 除此之外，因为 ^D 是“传输终止符”，还可以在控制台输入 Ctrl+D 来关闭标准输入流，终止正在读取他的程序。 • 小彭老师常用 Ctrl+D 来快速关闭一个 shell （和输入 exit 命令的效果一样）。 • 以及按 Ctrl+I 的效果其实和

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

如果有，则直接使用缓存中的数据。 • 这样一来，访问的数据量比较小时，就可以自动预先加载到这个更高效的缓存里，然后再开始做运算，从而避免从外部内存读写的超高延迟。缓存的分级结构查看高速缓存大小： lscpu • 可以看到我们 x86 电脑的缓存结构分为三级。 • 一级缓存分为数据缓存和指令缓存，其中数据缓存有 32 KB ， 6 个物理核心每个都有一个，总共 192 KB 。而指令缓存的大小刚好和数据缓存一样也是。而指令缓存的大小刚好和数据缓存一样也是 192 KB 。 • 二级缓存有 256 KB ， 6 个物理核心每个都有一个，总共 1.5 MB 。 • 三级缓存由各个物理核心共享，总共 12 MB 。通过图形界面查看拓扑结构： lstopo 根据我们缓存的大小分析刚刚的图表 • 也可以看到刚刚两个出现转折的点，也是在二级缓存和三级缓存的大小附近。 • 因此，数据小到装的进二级缓存，则最大带宽就取决于二级缓存的带宽。稍微大一点则宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound ，数据量尽量足够小，如果能装的进缓存就高效了。 L2: 256 KB L3: 12 MB 缓存的工作机制：读 • 缓存中存储的数据结构： • struct CacheEntry { • bool valid; • uint64_t address; • char data[64]; • }; • CacheEntry

0 码力 | 147 页 | 18.88 MB | 1 年前
3
谈谈MYSQL那点事

1M-8M 之间  设计合理的数据表结构：适当的数据冗余设计合理的数据表结构：适当的数据冗余  对数据表建立合适有效的数据库索引对数据表建立合适有效的数据库索引  数据查询：编写简洁高效的数据查询：编写简洁高效的 SQL SQL 语句语句应用优化应用优化应用优化方式应用优化方式应用优化应用优化表结构设计原则表结构设计原则选择字段的一般原则是保小不保大，能用占用字节唯一性约束，系统将默认为改字段建立索引。唯一性约束，系统将默认为改字段建立索引。  对于只是做查询用的数据库索引越多越好，但对于在线实时对于只是做查询用的数据库索引越多越好，但对于在线实时系统建议控制在系统建议控制在 55 个以内。个以内。  索引不仅能提高查询索引不仅能提高查询 SQL SQL 性能，同时也可以提高带性能，同时也可以提高带 where where 字句字句的 STATUS STATUS 、、 SHOW ENGINES SHOW ENGINES  使用使用 DESC TABLE xxx DESC TABLE xxx 来查看表结构，使用来查看表结构，使用 SHOW SHOW INDEX INDEX FROM xxx FROM xxx 来查看表索引来查看表索引  使用使用 LOAD DATA

0 码力 | 38 页 | 2.04 MB | 1 年前
3
Rust 异步并发框架在移动端的应用 - 陈明煜

任务优先级调度  异步并行迭代器  结构化并发 Ylong Runtime 对外接口 APP/SA 调度器提交任务 Async function CPU Task CPU Task IO Task IO Task Executor 高中低线程池 Reactor epoll fd1 fd2 …. 结构化并发优先级 deadline Async Fusion of IO/CPU intensive 结构化并发 Structured Concurrency 核心在于通过一种父子结构化的方法实现并发程序，用具有明确入口点和出口点的控制流结构来封装并发任务（可以是线程也可以是协程）的执行，确保所有派生任务在出口之前完成。 Structured concurrency 结构化并发带来的好处：  更高的易用性，用户不再需要显示调用 await await  提高程序的可读性和可维护性  保证了变量生命周期合法，使子任务可以捕获父任务的变量结构化并发 Structured concurrency Scope  Rust 线程中的结构化并发  阻塞等待所有 Scope 内的子线程任务完成  子线程执行的闭包中可以捕获 Scope 外的变量 AsyncScope  将 std 库中 thread scope 的思想异步化

0 码力 | 25 页 | 1.64 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 编译慢的原因找到了……因为他们用了大量的模板。模板的应用：编译期优化案例 • 在右边这个案例中，我们声明了一个 sumto 函数，作用是求出从 1 到 n 所有数字的和。 • 用一个 debug 参数控制是否输出调试信息。 • 但是这样 debug 是运行时判断，这样即使是 debug 为 false 也会浪费 CPU 时间。模板的应用：编译期优化案例（续） • 因此可以把 debug get 的返回类型。 tuple ：结构化绑定 • 可是需要一个个去 get 还是好麻烦。 • 没关系，可以用结构化绑定的语法： • auto [x, y, ...] = tup; • 利用一个方括号，里面是变量名列表，即可解包一个 tuple 。里面的数据会按顺序赋值给每个变量，非常方便。 tuple ：结构化绑定为引用 • 结构化绑定也支持绑定为引用： • auto &[x

0 码力 | 82 页 | 12.15 MB | 1 年前
3
Go读书会第二期

Part3 – 语法基础：声明、类型、语句与控制结构践行哲学，遵循惯例，认清本质，理解原理 • 一致的变量声明形式 • 无类型常量与 iota 的应用 • 定义零值可用的类型 • 通过复合字面值的初始化 • 切片、字符串、 map 的原理、惯用法与坑每个 gopher 编写 Go 代码都会用到的 • Go 包导入相关 • 代码块与作用域 • 控制语句的惯用法与坑 Part4 – 语法基础：函数与方法

0 码力 | 26 页 | 4.55 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： 64 库就是受到他启发（完全是头文件组成） 6. fmtlib/fmt - 格式化库，提供 std::format 的替代品（需要 -DFMT_HEADER_ONLY ） 7. gabime/spdlog - 能适配控制台，安卓等多后端的日志库（和 fmt 冲突！） • 只需要把他们的 include 目录或头文件下载下来，然后 include_directories(spdlog/include) 即可。 • 为例）的源码放到你工程的根目录： • 这些库能够很好地支持作为子模块引入： 1. fmtlib/fmt - 格式化库，提供 std::format 的替代品 2. gabime/spdlog - 能适配控制台，安卓等多后端的日志库 3. ericniebler/range-v3 - C++20 ranges 库就是受到他启发 4. g-truc/glm - 模仿 GLSL 语法的数学矢量 / 矩阵库

0 码力 | 32 页 | 11.40 MB | 1 年前
3

共 23 条前往

页

C++高性性能高性能并行编程优化课件 10 02 游人 RustCC AtlasGraph 15 07 MySQL 陈明煜 2023RustChinaConf 03 go golang 01

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

新一代分布式高性能图数据库的构建 - 沈游人

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

谈谈MYSQL那点事

Rust 异步并发框架在移动端的应用 - 陈明煜

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

Go读书会第二期

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起