业务框架升级 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

<<>> 的简写而已。图片解释三维的板块和线程 • 之所以会把 blockDim 和 gridDim 分三维主要是因为 GPU 的业务常常涉及到三维图形学和二维图像，觉得这样很方便，并不一定 GPU 硬件上是三维这样排列的。 • 三维情况下同样可以获取总的线程编号（扁平化）。 • 如需总的线程数量： blockDim * shared memory ） • 刚刚已经实现了无数据依赖可以并行的 for ，那么如何把他真正变成并行的呢？这就是板块的作用了，我们可以把刚刚的线程升级为板块，刚刚的 for 升级为线程，然后把刚刚 local_sum 这个线程局部数组升级为板块局部数组。那么如何才能实现板块局部数组呢？ • 同一个板块中的每个线程，都共享着一块存储空间，他就是共享内存。在 CUDA 的语法中，共享内存可以通过定的语法中，共享内存可以通过定义一个修饰了 __shared__ 的变量来创建。因此我们可以把刚刚的 local_sum 声明为 __shared__ 就可以让他从每个线程有一个，升级为每个板块有一个了。 • 然后把刚刚的 j 换成板块编号， i 换成线程编号就好啦。板块的共享内存（ shared memory ） • 但是刚刚算出来的结果好像不对了？ • 这是因为 SM 执行一个板块中的线程时，并不是全部同时执行

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， Pig(pig) 语法来强制拷贝。为什么很多面向对象语言，比如 Java ，都没有构造函数全家桶这些概念？ • 因为他们的业务需求大多是：打开数据库，增删改查学生数据，打开一个窗口，写入一个文件，正则匹配是不是电邮地址，应答 HTTP 请求等。 • 这些业务往往都是在和资源打交道，从而基本都是刚刚说的要删除拷贝函数的那一类，解决这种需求，几乎总是在用 shared_ptr 脆简化：一切非基础类型的对象都是浅拷贝，引用计数由垃圾回收机制自动管理。 • 因此，以系统级编程、算法数据结构、高性能计算为主要业务的 C++ ，才发展出了这些思想，并将拷贝 / 移动 / 指针 / 可变性 / 多线程等概念作为语言基本元素存在。这些在我们的业务里面是非常重要的，所以不可替代。 • （试图升华文章中心主旨）扩展阅读关键字 • 限于篇幅，此处放出一些扩展知识供学有余力的同学研究：

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ，，需要做大量数学运算，因此瓶颈在 ALU 。 • 这里卖个关子，欲知后事如何，请待下集揭晓！更专业的性能测试框架： Google benchmark • 手动计算时间差有点太硬核了，而且只运行一次的结果可能不准确，最好是多次运行取平均值才行。 • 因此可以利用谷歌提供的这个框架。 • 只需将你要测试的代码放在他的 • for (auto _: bm) • 里面即可。他会自动决定要重复多少次，为串行的（如果他们没办法并行调用的话）而其他 filter 可以和他同时并行运行。这可以应对一些不方便并行，或者执行前后的数据有依赖，但是可以拆分成多个步骤（ filter ）的复杂业务。 • 还有好处是他无需先把数据全读到一个内存数组里，可以流式处理数据（ on-fly ），节省内存。 • 不过需要注意流水线每个步骤（ filter ）里的工作量最好足够大，否则无法掩盖调度

0 码力 | 116 页 | 15.85 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

是一个挑战，但请放心，这是很正常的。我们可以按照“艾宾浩斯遗忘曲线”来复习题目，通常在进行 3‑5 轮的重复后，就能将其牢记在心。 3. 搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。作为一本入门教程，本书内容主要涵盖“第一阶段” 在实际中，我们通常会用一些标准哈希算法，例如 MD5 , SHA‑1 , SHA‑2 , SHA3 等。它们可以将任意长度的输入数据映射到恒定长度的哈希值。近一个世纪以来，哈希算法处在不断升级与优化的过程中。一部分研究人员努力提升哈希算法的性能，另一部分研究人员和黑客则致力于寻找哈希算法的安全性问题。直至目前： ‧ MD5 和 SHA‑1 已多次被成功攻击，因此它们被各类安全应用弃用。 Figure 13‑3. 根据约束条件剪枝 13.1.3. 框架代码接下来，我们尝试将回溯的“尝试、回退、剪枝”的主体框架提炼出来，提升代码的通用性。 13. 回溯 hello‑algo.com 250 在以下框架代码中，state 表示问题的当前状态，choices 表示当前状态下可以做出的选择。 /* 回溯算法框架 */ void backtrack(State *state,

0 码力 | 343 页 | 27.39 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

忘曲线”来复习题目，通常在进行 3～5 轮的重复后，就能将其牢记在心。推荐的题单和刷题计划请见此 GitHub 仓库。 3. 阶段三：搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑8 所示，本书内容主要涵盖“阶段一” 般无法仅凭复杂度来选择 ? = 8 之下的最优解法。但对于 ? = 85 就很好选了，这时增长趋势已经占主导了。 51 第 3 章数据结构 Abstract 数据结构如同一副稳固而多样的框架。它为数据的有序组织提供了蓝图，算法得以在此基础上生动起来。第 3 章数据结构 hello‑algo.com 52 3.1 数据结构分类常见的数据结构包括数组、链表、栈、队列、哈希表并引起一些安全问题。在实际中，我们通常会用一些标准哈希算法，例如 MD5、SHA‑1、SHA‑2 和 SHA‑3 等。它们可以将任意长度的输入数据映射到恒定长度的哈希值。近一个世纪以来，哈希算法处在不断升级与优化的过程中。一部分研究人员努力提升哈希算法的性能，另一部分研究人员和黑客则致力于寻找哈希算法的安全性问题。表 6‑2 展示了在实际应用中常见的哈希算法。 ‧ MD5 和 SHA‑1 已多次

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0b5 C++版

一个挑战，但请放心，这是很正常的。我们可以按照“艾宾浩斯遗忘曲线”来复习题目，通常在进行 3‑5 轮的重复后，就能将其牢记在心。 3. 搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑7 所示，本书内容主要涵盖“第一阶段多少，所以一般无法仅凭复杂度来选择 ? = 8 之下的最优解法。但对于 ? = 85 就很好选了，这时增长趋势已经占主导了。 49 第 3 章数据结构 � 数据结构如同一副稳固而多样的框架。它为数据的有序组织提供了蓝图，使算法得以在此基础上生动起来。第 3 章数据结构 hello‑algo.com 50 3.1 数据结构分类常见的数据结构包括数组、链表、栈、队列、哈希并引起一些安全问题。在实际中，我们通常会用一些标准哈希算法，例如 MD5、SHA‑1、SHA‑2、SHA3 等。它们可以将任意长度的输入数据映射到恒定长度的哈希值。近一个世纪以来，哈希算法处在不断升级与优化的过程中。一部分研究人员努力提升哈希算法的性能，另一部分研究人员和黑客则致力于寻找哈希算法的安全性问题。表 6‑2 展示了在实际应用中常见的哈希算法。 ‧ MD5 和 SHA‑1 已多次

0 码力 | 377 页 | 30.69 MB | 1 年前
3
Hello 算法 1.0.0 C++版

，但请放心，这是很正常的。我们可以按照“艾宾浩斯遗忘曲线”来复习题目，通常在进行 3～5 轮的重复后，就能将其牢记在心。 3. 阶段三：搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑8 所示，本书内容主要涵盖“阶段一” 是多少，所以一般无法仅凭复杂度来选择 ? = 8 之下的最优解法。但对于 ? = 85 就很好选了，这时增长趋势已经占主导了。 51 第 3 章数据结构 � 数据结构如同一副稳固而多样的框架。它为数据的有序组织提供了蓝图，算法得以在此基础上生动起来。第 3 章数据结构 hello‑algo.com 52 3.1 数据结构分类常见的数据结构包括数组、链表、栈、队列、哈希表并引起一些安全问题。在实际中，我们通常会用一些标准哈希算法，例如 MD5、SHA‑1、SHA‑2 和 SHA‑3 等。它们可以将任意长度的输入数据映射到恒定长度的哈希值。近一个世纪以来，哈希算法处在不断升级与优化的过程中。一部分研究人员努力提升哈希算法的性能，另一部分研究人员和黑客则致力于寻找哈希算法的安全性问题。表 6‑2 展示了在实际应用中常见的哈希算法。 ‧ MD5 和 SHA‑1 已多次

0 码力 | 378 页 | 17.59 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

忘曲线”来复习题目，通常在进行 3～5 轮的重复后，就能将其牢记在心。推荐的题单和刷题计划请见此 GitHub 仓库。 3. 阶段三：搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑8 所示，本书内容主要涵盖“阶段一” 般无法仅凭复杂度来选择 ? = 8 之下的最优解法。但对于 ? = 85 就很好选了，这时增长趋势已经占主导了。 51 第 3 章数据结构 Abstract 数据结构如同一副稳固而多样的框架。它为数据的有序组织提供了蓝图，算法得以在此基础上生动起来。第 3 章数据结构 www.hello‑algo.com 52 3.1 数据结构分类常见的数据结构包括数组、链表、栈、队列并引起一些安全问题。在实际中，我们通常会用一些标准哈希算法，例如 MD5、SHA‑1、SHA‑2 和 SHA‑3 等。它们可以将任意长度的输入数据映射到恒定长度的哈希值。近一个世纪以来，哈希算法处在不断升级与优化的过程中。一部分研究人员努力提升哈希算法的性能，另一部分研究人员和黑客则致力于寻找哈希算法的安全性问题。表 6‑2 展示了在实际应用中常见的哈希算法。 ‧ MD5 和 SHA‑1 已多次

0 码力 | 379 页 | 18.48 MB | 10 月前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ，关于作者（续） • 我是 Taichi Blend 的作者（ https://github.com/taichi-dev/taichi_blend ）关于作者（再续） • 主导 Zeno 节点仿真框架的开发（ https://github.com/zenustech/zeno ）什么是编译器 • 编译器，是一个根据源代码生成机器码的程序。 • > g++ main.cpp -o a.out 旨在补充标准库没有的常用功能 6. bombela/backward-cpp - 实现了 C++ 的堆栈回溯便于调试 7. google/googletest - 谷歌单元测试框架 8. google/benchmark - 谷歌性能评估框架 9. glfw/glfw - OpenGL 窗口和上下文管理 10.libigl/libigl - 各种图形学算法大合集 fmt - 使用这个神奇的格式化库

0 码力 | 32 页 | 11.40 MB | 1 年前
3
面向亿行 C／C++ 代码的静态分析系统设计及实践-肖枭

没有问题，允许合入开发者代码仓库静态代码评审的样子为何代码评审阶段？ 2K Bugs 12K Warnings 225K Code Smell “找到几万个问题，没法修” “这是以前的业务逻辑，不用修” “这别人写的代码，不关我事” 大量报告引起不适刚写的代码立即自动扫描，程序员强迫使用只体现新增代码问题，责任边界清晰评审流程多人督促渐进式开启更多检查器增量分析减少不适

0 码力 | 39 页 | 6.88 MB | 1 年前
3

共 20 条前往

页

C++高性性能高性能并行编程优化课件 08 02 06 Hello 算法 1.0 0b4 1.1 0b5 1.2 简体中文简体中文 01 面向亿行代码静态分析系统设计实践肖枭

分类

语言

格式