主界面 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

区别是浮点的乘法和加法基本是一样速度。 • L1/2/3 read 和 Main RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一三级缓存由各个物理核心共享，总共 12 MB 。通过图形界面查看拓扑结构： lstopo 根据我们缓存的大小分析刚刚的图表 • 也可以看到刚刚两个出现转折的点，也是在二级缓存和三级缓存的大小附近。 • 因此，数据小到装的进二级缓存，则最大带宽就取决于二级缓存的带宽。稍微大一点则只能装到三级缓存，就取决于三级缓存的带宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound • }; • CacheEntry cache[512]; • 当 CPU 读取一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则给 CPU 返回缓存中的数据。如果找不到，则向主内存发送请求，等读取到该地址的数据，就创建一个新条目。 • 在 x86 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 • 当访问 0x0048~0x0050

0 码力 | 147 页 | 18.88 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

客观精准的效能洞察强大免运维的模版库 • 自动生成面向开发、测试、运维角色的工作流 • 多个微服务并行构建、部署、测试，代码验证效率 UP • 自定义工作流，灵活编排发布、自主开发和对接企业内部流程和系统扫码查看飞书主干开发最佳实践灵活易用的高并发工作流 • 一键拉起环境 / 子环境 • 一键复制 / 睡眠环境 • 多环境 / 环境配置管理 • 服务编排 / 调试更新配置需要打一个 Chart 包 3. 使用 kubectl 登入服务 1. Zadig 工作流自动更新服务 2. Zadig 集成环境更新服务配置 3. 在 Zadig 的图形界面上查看实时日志、调试测试 1. 测试因为环境不稳定经常受影响 1. 测试套件的自助式运行，管理和执行分析测试结果 2. 关联到开发工作流中，为开发提供自动化验证保障效能提升场景： 2K+ 微服务、多语言、

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

x.y.z) 可以把当前项目的版本号设定为 x.y.z 。 • 之后可以通过 PROJECT_VERSION 来获取当前项目的版本号。 • PROJECT_VERSION_MAJOR 获取 x （主版本号）。 • PROJECT_VERSION_MINOR 获取 y （次版本号）。 • PROJECT_VERSION_PATCH 获取 z （补丁版本号）。一些没什么用，但 CMake 官方不知为何就是提供了的项目字段…… • 在 Linux 中，可以运行 ccmake -B build 来启动基于终端的可视化缓存编辑菜单。 • 在 Windows 则可以 cmake-gui -B build 来启动图形界面编辑各个缓存选项。 • 当然，直接用编辑器打开 build/CMakeCache.txt 修改后保存也是可以的。 • CMakeCache.txt 用文本存储数据，就是可供用户手动编辑，或是被第三方软件打开并解析的。

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

如下载一个文件，同时还要和用户交互。 • 这在 GUI 应用程序中很常见，比如浏览器在后台下载文件的同时，用户仍然可以用鼠标操作其 UI 界面。没有多线程：程序未响应 • 没有多线程的话，就必须等文件下载完了才能继续和用户交互。 • 下载完成前，整个界面都会处于“未响应”状态，用户想做别的事情就做不了。现代 C++ 中的多线程： std::thread • C++11 开始，为多线程提供了语言级别的构时会自动等待全部线程执行完毕。小彭老师快乐吐槽时间 • 多线程、异步、无阻塞、并发，能提升程序响应速度，对现实世界中的软件工程至关重要。 • 反面教材： blender 在运行物理解算的时候，界面会卡住，算完一帧后窗口才能刷新一遍，导致解算过程中基本别想做事，这一定程度上归功于 opengl 原始的单线程设计。 • 正面教材： zeno 可以在解算过程中，随时拖动滑块看前几帧的结果，编辑场景图，修改

0 码力 | 79 页 | 14.11 MB | 1 年前
3
GPU Resource Management On JDOS

物理机 GPU 实验 JDOS 常规的容器服务，使用 gpu 的 zone ，自行设定相应的镜像即可，有完善的周边服务训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作，用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像，不需要 JDOS 提前协助制作镜像 – 提供 tensorboard

0 码力 | 11 页 | 13.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

各维度上的大小通过 cudaExtent 指定，方便起见我们的 C++ 封装类用了 uint3 表示大小。 • GPU 的多维数组有特殊的数据排布来保障访存的高效，和我们 CPU 那样简单地行主序或列主序（如 a[x + nx * y] ）的多维数组不一样。 • 随后可用 cudaMemcpy3D 在 GPU 的三维数组和 CPU 的三维数组之间拷贝数据。 CUDA 表面对象：封装是不是无散度（不可压缩流）了。多重网格法投影部分：多重网格实现投影部分：红黑高斯投影部分：计算残差投影部分：缩小一倍投影部分：清零数组投影部分：扩大一倍创建与导出主函数：创建场景导出 VDB ：调用接口导出 VDB ：分离实现 CMake ：使用 CUDA 编译器，链接 OpenVDB 在 Blender 中查看导出的结果边界条件边界条件：初始化

0 码力 | 58 页 | 14.90 MB | 1 年前
3
Zadig 产品使用手册

标配，帮助企业全面实现产研数字化转型。核心团队由 D e v O p s 领域云计算工程技术专家和高级工程师为主，核心成员是来自于谷歌，腾讯，七牛云，阿里的技术骨干。公司已经连续完成来自顶级资本的多轮融资。自 Z 。专注在云原生 C I / C D 、 D e v O p s 、平台工程架构等大规模软件研发的基础工程领域的研究和应用。主导研发的 Z a d i g 开源 D e v O p s 软件工程平台已被 2 0 0 0 多家企业广泛使用，包括字节跳动飞书、

0 码力 | 52 页 | 22.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行摩尔定律：停止增长了吗？ • 晶体管的密度的确仍在指数增长，但处理器主频却开始停止增长了，甚至有所下降。 • 很长时间之前我们就可以达到 2GHz （ 2001 年 8 月），根据 2003 年的趋势，在 2005 年初我们就应该研发出 10GHz 的芯片。域按照常规的两层循环访问以便矢量化，块外部大区域则以类似 Z 字型的曲线遍历，这样能保证每次访问的数据在地址上比较靠近，并且都是最近访问过的，从而已经在缓存里可以直接读写，避免了从主内存读写的超高延迟。 • 下次课会进一步深入探讨访存优化，详细剖析这个案例，那么下周六 14 点敬请期待。第 6 章：并发容器 std::vector 扩容时会移动元素 • std::vector

0 码力 | 116 页 | 15.85 MB | 1 年前
3
Go读书会第二期

Go 读书会第二期白明《 Go 语言精进之路》作者 tonybai.com 博主目录写书的历程 0 1 Go 语言精进之路导读 0 2 我是怎么读书的 0 3 写书的历程第一部分程序员的“小目标”与写书三要素写书三要素写书 <- 能力 +意愿 + 机会过程写书不易，写高质量的书更难 2018 年下旬开始动笔 2020 年 11 月下旬初稿交付

0 码力 | 26 页 | 4.55 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

算法实现，进行数据副本处理，头结点写，多结点读，支持读写分离，提供更好的并发查询能力数据高可用实现 Chain Replication 数据高可用方案服务高可用实现系统中 Meta ， TS 服务采用主备架构，基于 Raft 算法实现租约，进行服务多活，保证图库不会出现单点故障。 Raft 服务高可用方案偏向分析型的分布式事务【 MVOCC 事务提交】基于多版本乐观并发控制技术的分布式事

0 码力 | 38 页 | 24.68 MB | 1 年前
3

共 11 条前往

页

C++高性性能高性能并行编程优化课件 07 Zadig 面向开发开发者原生 DevOps 平台 11 05 GPU JDOS 09 产品使用手册使用手册 06 go golang 游人 RustCC AtlasGraph

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

Zadig 面向开发者的云原生 DevOps 平台

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

GPU Resource Management On JDOS

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

Zadig 产品使用手册

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

Go读书会第二期

新一代分布式高性能图数据库的构建 - 沈游人