用户界面改进 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

-DNDEBUG` • 此外，注意定义了 NDEBUG 宏会使 assert 被去除掉。小技巧：设定一个变量的默认值如何让 CMAKE_BUILD_TYPE 在用户没有指定的时候为 Release ，指定的时候保持用户指定的值不变呢。就是说 CMake 默认情况下 CMAKE_BUILD_TYPE 是一个空字符串。因此这里通过 if (NOT CMAKE_BUILD_TYPE) 判断是否为空，如果空 CSDN 学到的用法）。 • 请使用 CMake 帮你封装好的 CMAKE_CXX_STANDARD （从业人员告诉你的正确用法）。 • 为什么百度不对：你 GCC 用户手动指定了 -std=c++17 ，让 MSVC 的用户怎么办？ • 此外 CMake 已经自动根据 CMAKE_CXX_STANDARD 的默认值 11 添加 -std=c++11 选项了，你再添加个 -std=c++17 假如你写的 CMakeLists.txt 包含了 3.15 版本才有的特性，如果用户在老版本上使用，就会出现各种奇怪的错误。因此最好在第一行加个 cmake_minimum_required(VERSION 3.15) 表示本 CMakeLists.txt 至少需要 CMake 版本 3.15 以上才能运行。如果用户的 CMake 版本小于 3.15 ，会出现“ CMake 版本不足”的提示。

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

。而指令缓存的大小刚好和数据缓存一样也是 192 KB 。 • 二级缓存有 256 KB ， 6 个物理核心每个都有一个，总共 1.5 MB 。 • 三级缓存由各个物理核心共享，总共 12 MB 。通过图形界面查看拓扑结构： lstopo 根据我们缓存的大小分析刚刚的图表 • 也可以看到刚刚两个出现转折的点，也是在二级缓存和三级缓存的大小附近。 • 因此，数据小到装的进二级缓存，则最大带宽就取决于二级缓存的带宽。稍微大一点则时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经 malloc 过的地址区间，则执行实际的内存分配，并标记该段内存为“可用”，下次访问就不会再产生缺页中断了；而如果用户写入的地址根本不是他 malloc 过的地址，那就说明他确实犯错了，就抛出段错误（ • 当一个尚且处于“不可用”的 malloc 过的区间被访问，操作系统不是把整个区间全部分配完毕，而是只把当前写入地址所在的页面（ 4KB 大小）给分配上。也就是说用户访问 a[0] 以后只分配了 4KB 的内存。等到用户访问了 a[1024] ，也就是触及了下一个页面，他才会继续分配一个 4KB 的页面，这时才 8KB 被实际分配。比如这里我们分配了 16GB 内存，但是只访问了他的前

0 码力 | 147 页 | 18.88 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

提升效率，建设质量体系安全安全建设被动： • 安全建设缺乏时机和抓手 • 出现问题，影响业务进度前置安全服务：全流程嵌入安全检测，避免流入业务环节。全流程安全门禁：关键环节设置安全门禁，快速反馈研发改进故障拦截率提升 1-3 倍业务响应效率提升 3-5 倍全流程安全建设更多价值体现组织靠流程和个人，效率越来越低 • 低人效 / 低质量 / 低效率 / 高成本 • 人淹没在系统的海洋里构建 DevOps 流程，以减少整体耗时、提升运维效率和开发者体验。解决方案 Zadig 自身秉持 " 云原生 " 、 " 多环境 " 、 " 无缝接入 " 等理念，完美契合路特斯改进软件交付流程的需求。在多轮方案选型和对比后，路特斯最终选择 Zadig 作为新一代 DevOps 平台。效果收益 1. 每月节省 15 人天 2. 新项目接入效率提升调试更新配置需要打一个 Chart 包 3. 使用 kubectl 登入服务 1. Zadig 工作流自动更新服务 2. Zadig 集成环境更新服务配置 3. 在 Zadig 的图形界面上查看实时日志、调试测试 1. 测试因为环境不稳定经常受影响 1. 测试套件的自助式运行，管理和执行分析测试结果 2. 关联到开发工作流中，为开发提供自动化验证保障效能提升场景： 2K+ 微服务、多语言、

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行，则在处理完 A 的请求之前， B 的请求就无法处理，造成“无响应”现象。 C 的请求进来，则还得继续排队…… • 每个请求开启一个线程来处理，这样处理 A 用户的同时还可以继续监听 B 用户发来的请求，及时响应，改善用户体验。 • 并行：某图形学爱好者购置了一台 4 核处理器的电脑，他正在渲染 cornell box 的图像，这个图像在单核上渲染需要 4 分钟。 • 他把图像切成的版本：任务组 • 用一个任务组 tbb::task_group 启动多个任务，一个负责下载，一个负责和用户交互。并在主线程中等待该任务组里的任务全部执行完毕。 • 区别在于，一个任务不一定对应一个线程，如果任务数量超过 CPU 最大的线程数，会由 TBB 在用户层负责调度任务运行在多个预先分配好的线程，而不是由操作系统负责调度线程运行在多个物理核心。封装好了：

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）温馨提示： 1. 会用到第二讲（例如：后台在执行一个很耗时的任务，比如下载一个文件，同时还要和用户交互。 • 这在 GUI 应用程序中很常见，比如浏览器在后台下载文件的同时，用户仍然可以用鼠标操作其 UI 界面。没有多线程：程序未响应 • 没有多线程的话，就必须等文件下载完了才能继续和用户交互。 • 下载完成前，整个界面都会处于“未响应”状态，用户想做别的事情就做不了。现代 C++ 中的多线程： std::thread 这个类来表示线程。 • std::thread 构造函数的参数可以是任意 lambda 表达式。 • 当那个线程启动时，就会执行这个 lambda 里的内容。 • 这样就可以一边和用户交互，一边在另一个线程里慢吞吞下载文件了。错误：找不到符号 pthread_create • 但当我们直接尝试编译刚才的代码，却在链接时发生了错误。 • 原来 std::thread 的实现背后是基于

0 码力 | 79 页 | 14.11 MB | 1 年前
3
GPU Resource Management On JDOS

训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作，用户提供代码地址和执行命令即可 – 系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像，不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源，提高 GPU 利用率 – Job 调度调度（部门 quota 限制 + 优先级） • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架（镜像）：支持官方，亦可自制（提供 dockerfile 生成镜像服务） – 选择存储来源：对接了内部的存储 – 填写代码地址，执行的命令等 – 可以选择是否监控训练，提供 tensorboard 任务列表可以指定 git 的 commit-id 发起任务任务详情服务，只需用户指定模型，即可提供 grpc 和 rest 服务，同时使用 GPU 复用 +HPA 提高 GPU 利用率创建 Serving 与训练集成 • 用户只需要简单选择机房和镜像填写模型名即可完成 Serving 服务创建自有模型 • 用户只需要填写模型地址即可 GPU 监控 • 容器监控服务，自适应 GPU 容器，可根据容器 IP 查询记录 , 便于用户查看服务状态

0 码力 | 11 页 | 13.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：汇编语言 ivdep C/C++ 的缺点：指针的自由度过高，允许多个 immutable reference 指向同一个对象，而 Rust 从语法层面禁止，从而让编译器放心大胆优化。为什么标准委员会不改进一下？因为一旦放弃兼容，就等于抛弃所有历史遗产的全新语言，就和 Rust 无异，从而没有任何理由再学习 C++ 。 std::vector ：也能实现 SOA ！优化前 (AOS) 优化后

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

(psecond) 来判断是否为空。 • 用途举例：假如一个参数类 Params 非常复杂，然后函数是 func(Params *pars) ，这样只要给 pars 传一个空指针，就表示“用户不想指定这个参数”的意思。 C++ 可以用更安全的 func(std::optional pars) 来替代。 NULL 的定义为什么是这样的？ • 如果你看过标准库的头文件内容，会看到的）就需要起始地址和数组长度两个，才能确定下来，也就是 char * 和 int 两个。 • 所以要把动态数组的引用传给函数，需要有两个参数，一个指针加一个长度。使用 const 修饰指针指向的值 • 改进： printarr 没有修改 a 数组里的元素，因此是只读的访问，可以改成 const char* a 。 • 标记 const 的好处是，让调用者清楚哪些函数有副作用（会修改数组），哪些是只读的。很多谭浩强教材上会直接写 • char str[10]; scanf(“%s”, str); • 这是非常危险的，如果用户输入了超过 10 的字符串，那么多出来的部分就会产生数组越界，导致程序奔溃。常见错误： scanf 不指定缓冲区大小 • 最好是用 “ %10s” 来指定缓冲区大小，这样就算用户输入了超过 10 个字符， scanf 也会自动截断，至少不会出错了。常见错误： scanf

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

Derived : Base> {}; CRTP 的改进：如果基类还想基于另一个类 • 现在我们的需求有变，需要新增一个“超狗 (superdog)” 类，他继承自普通狗 (dog) 。 • 这时我们可以给 IObjectClone 新增一个模板参数 Base ，其默认值为 IObject 。 • 这样当用户需要的时候就 • 可指定第二个参数 Base ， • 从而控制 IObjectClone

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

边界条件：仅在第一层额外判断边界条件进一步改进 VDB 导出：支持导出多个网格，并指定名称进一步改进 VDB 导出： P-IMPL 模式进一步改进 VDB 导出： F-IMPL 模式 Blender 渲染结果改进改进边界条件：外部边界流出而不是反弹，内部边界可以流出速度 Blender 中调整一下材质 Blender 中调整一下材质改进对流：让烟雾随时间逐渐褪色改进对流：让烟雾随时间逐渐褪色改进对流：让烟雾随时间逐渐褪色改进褪色：不是褪色 density ，而是褪色 temperature 改进褪色：不是褪色 density ，而是褪色 temperature 改进褪色：不是单纯地乘以 decayRate ，还和周围环境温度求平均值改进温度：高温气体往上浮（作为外力来看待）结果：更像火焰了改进颜色场：让 clr 作为尘埃密度，密度越高越有向下坠落的趋势问题：上面的尘埃无止境的飘下来解决：纹理对象指定为解决：纹理对象指定为 cudaAddressModeBorder 让越界访问自动变 0 即可结果：小球加回来改进温度：只有达到一定温度才会上升，否则（视为冷空气）下降改进褪色：尘埃密度也会褪色

0 码力 | 58 页 | 14.90 MB | 1 年前
3

共 25 条前往

页

C++高性性能高性能并行编程优化课件 11 07 Zadig 面向开发开发者原生 DevOps 平台 06 05 GPU JDOS 04 12 09

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

Zadig 面向开发者的云原生 DevOps 平台

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

GPU Resource Management On JDOS

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战