任务回调 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

1>>>() 后，并不会立即在 GPU 上执行完毕，再返回。实际上只是把 kernel 这个任务推送到 GPU 的执行队列上，然后立即返回，并不会等待执行完毕。 • 因此可以调用 cudaDeviceSynchronize() ，让 CPU 陷入等待，等 GPU 完成队列的所有任务后再返回。从而能够在 main 退出前等到 kernel 在 GPU 上执行完。定义在 GPU 用于定义核函数，他在 GPU 上执行，从 CPU 端通过三重尖括号语法调用，可以有参数，不可以有返回值。 • 而 __device__ 则用于定义设备函数，他在 GPU 上执行，但是从 GPU 上调用的，而且不需要三重尖括号，和普通函数用起来一样，可以有参数，有返回值。 • 即： host 可以调用 global ； global 可以调用 device ； device 可以调用 device 上的函数。同时定义在 CPU 和 GPU 上 • 通过 __host__ __device__ 这样的双重修饰符，可以把函数同时定义在 CPU 和 GPU 上，这样 CPU 和 GPU 都可以调用。让 constexpr 函数自动变成 CPU 和 GPU 都可以调用 • 这样相当于把 constexpr 函数自动变成修饰 __host__ __device__ ，从而两边都可以调用。

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

char data[64]; • }; • CacheEntry cache[512]; • 当 CPU 读取一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则给 CPU 返回缓存中的数据。如果找不到，则向主内存发送请求，等读取到该地址的数据，就创建一个新条目。 • 在 x86 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 tmp 对象的副本，防止多线程调用 func 出错。 • 返回时（或者进入时）调用 tmp.clear() 清除已有数据。由于 vector 的特性，他只会把 size() 标记为 0 并调用其成员的解构函数，而不会实际释放内存（ free ）。 • 因此第二次进入的时候，如果 n 不超过上一次的大小，就还是用的第一次分配的内存，避免了重新分配的开销。对 func 需要被重复调用的情况很实用。了，毕竟 16 次加法远远没有超过 membound 的范畴， cpubound 我们已经仁至义尽地尽量消除了。 • 如果单单采用手动预取，或者单单采用循环分块，那反而还会变慢。这就是性能调优中的一大难点：某个改动可能对性能没有效果，甚至反而产生负面效果。然而有经验的优化人员会知道，这不一定意味着这项改动是错的：有可能要配合多个改动一起上，才能有正面效果。 • 性能优化我们需要

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

每个线程共享同样的内存空间，开销比较小。 • 每个进程拥有独立的内存空间，因此开销更大。 • 对于高性能并行计算，更好的是多线程。为什么需要多线程：无阻塞多任务 • 我们的程序常常需要同时处理多个任务。 • 例如：后台在执行一个很耗时的任务，比如下载一个文件，同时还要和用户交互。 • 这在 GUI 应用程序中很常见，比如浏览器在后台下载文件的同时，用户仍然可以用鼠标操作其 UI 界面。 true 。 • 第二次上锁，由于自己已经上锁，所以失败了，返回 false 。只等待一段时间： try_lock_for() • try_lock() 碰到已经上锁的情况，会立即返回 false 。 • 如果需要等待，但仅限一段时间，可以用 std::timed_mutex 的 try_lock_for() 函数，他的参数是最长等待时间，同样是由 chrono 指定时间单位。超过这个时间还没 owns_lock() 判断是否上锁成功。 std::unique_lock ：用 std::adopt_lock 做参数 • 如果当前 mutex 已经上锁了，但是之后仍然希望用 RAII 思想在解构时候自动调用 unlock() ，可以用 std::adopt_lock 作为 std::unique_lock 或 std::lock_guard 的第二个参数，这时他们会默认 mtx 已经上锁。

0 码力 | 79 页 | 14.11 MB | 1 年前
3
《深入浅出MFC》2/e

v 印尼. 雅加达robin.hood@ibm.net 对您的书总是捧读再三，即使翻烂了也值得。这本深入浅出MFC，不但具有学习价值，亦极具参考价值。我买您的第一本书，好象是「内存管理与多任务」。还记得当时热中突破640KB 内存，发现该书如获至宝。数月前购买了深入浅出MFC，并利用闲暇时间翻阅学习（包括如厕时间... ）。我的学习曲线比较不同，我比较倾向于了解事情的因，而不是该如何做事情。比方说，「应么程度？探究源代码，岂不有违「黑盒子」初衷？但是，没有办法，他们也同意，不把那些奇奇怪怪的宏和指令搞清楚，只能生产出玩具来。对付MFC 内部机制，态度不必像对付 MFC 类别一样；你只需好好走过那么一回，有个印象，足矣。至于庞大繁复的整个application framework 技术的铺陈串接，不必人人都痛苦一次，我做这么一次也就够了。 11 林语堂先生在朱门一书中说过的一句话，适足作为我写作本书的心境，同时也对我与朋友括消息的产生、获得、分派、判断、处理），以及对C++ 多态（polymorphism）的精确体会。本章所提出的，是我对第一项必要基础的探讨，你可以从中获得关于Windows 程序的诞生与死亡，以及多任务环境下程序之间共存的观念。至于第二项基础，将由第二章为你夯实。 4 让我再强调一遍，本章就是我认为Windows 程序设计者一定要知道的基础知识。一个连这些基础都不清楚的人，不能要求自己冒冒然就开始用Visual

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

运用多线程的方式和动机，一般分为两种。 • 并发：单核处理器，操作系统通过时间片调度算法，轮换着执行着不同的线程，看起来就好像是同时运行一样，其实每一时刻只有一个线程在运行。目的：异步地处理多个不同的任务，避免同步造成的阻塞。 • 并行：多核处理器，每个处理器执行一个线程，真正的同时运行。目的：将一个任务分派到多个核上，从而更快完成任务。举个例子 • 并发：某互联网公司购置了一台单核处理上一课的案例代码：基于标准库基于 TBB 的版本：任务组 • 用一个任务组 tbb::task_group 启动多个任务，一个负责下载，一个负责和用户交互。并在主线程中等待该任务组里的任务全部执行完毕。 • 区别在于，一个任务不一定对应一个线程，如果任务数量超过 CPU 最大的线程数，会由 TBB 在用户层负责调度任务运行在多个预先分配好的线程，而不是由操作系统负责调度线程运行在多个物理核心。 dedicated 让人咋用？第 4 章：任务域与嵌套 https://link.springer.com/chapter/10.1007%2F978-1-4842-4398-5_12 任务域： tbb::task_arena 任务域：指定使用 4 个线程嵌套 for 循环嵌套 for 循环：死锁问题死锁问题的原因 • 因为 TBB 用了工作窃取法来分配任务：当一个线程 t1 做完自己队列里全部的工

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

(pipeline) 。流水线的目的是能把原本串行的一系列指令并行化。为了理解为什么需要流水线，我们先反过来，假设没有流水线，会有什么坏处。 • 例如，右边你今天早上的任务清单。 • 请问你这些任务总共需要多少时间？任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑存器来指令解码单元才开始继续工作，很低效。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股洗脸烧开水刷牙看比站吃饭拉粑粑 5 10 5 15 30 20 为什么需要流水线 • 更高效的办法是，观察每个任务都占用哪些资源，所占用资源不冲突的可以同时进行， + 20 = 40 分钟，比你快一倍多。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股洗脸刷牙烧开水吃饭看比站拉粑粑 5 5 10 20 条件跳转指令 • 让不占用相同资源的任务同时进行，这也是 CPU 流水线的初衷。但理想是美好的，现实

0 码力 | 47 页 | 8.45 MB | 1 年前
3
现代C++ 教程：高速上手C++11/14/17/20

都支持，但是）它是一个非法的行为，我们需要使用接下来即将介绍的 C++11 引入的 constexpr 特性来解决这个问题；而对于 arr_5 来说，C++98 之前的编译器无法得知 len_foo() 在运行期实际上是返回一个常数，这也就导致了非法的产生。注意，现在大部分编译器其实都带有自身编译优化，很多非法行为在编译器优化的加持下会变得合法，若需重现编译报错的现象需要使用老版本的编译器。 C++11 提供了量的历史遗留问题，消除了诸如 std::vector、std::string 之类的额外开销，也才使得函数对象容器 std::function 成为了可能。左值、右值的纯右值、将亡值、右值要弄明白右值引用到底是怎么一回事，必须要对左值和右值做一个明确的理解。左值 (lvalue, left value)，顾名思义就是赋值符号左边的值。准确来说，左值是表达式（不一定是赋值表达式）后依然存在的持久对象。右值试想，如果我们的主线程 A 希望新开辟一个线程 B 去执行某个我们预期的任务，并返回我一个结果。而这时候，线程 A 可能正在忙其他的事情，无暇顾及 B 的结果，所以我们会很自然的希望能够在某个特定的时间获得线程 B 的结果。在 C++11 的 std::future 被引入之前，通常的做法是：创建一个线程 A，在线程 A 里启动任务 B，当准备完毕后发送一个事件，并将结果保存在全局变量中。而主函数线程

0 码力 | 83 页 | 2.42 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

发现结果不对了……说明 int8_t 太小了（可以容纳 - 128 到 127 ），容纳不下 97*100 这么大的数，发生了溢出导致结果错误。试图解决：用 uint8_t 表示，定点数系数调小到 2 • 注意到我们的值始终是正数，因此可以用无符号的 uint8_t （可以容纳 0 到 255 ），然后把刚刚的系数 100 改小到 2 ，成功算对结果了，代价是精度损失了不少。 uint8_t （范围从 0 到 255 ），着色器在读取的时候才会把他转换成 float （范围从 0.0 到 1.0 ）。这就是浮点数的量化，存储时转换成低精度的定点数，读取时再转换回高精度的浮点数，从而节省 4 倍内存带宽，提升 GPU 性能。有没有更小的浮点类型？ • 浮点数在接近 0 的时候精度更高，在一些图形学应用中还是很必要的（比如表示粒子的速度），定点数就做不到。

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

这里的解构函数也是多态的，他根据类型的不同调用不同派生类的解构函数。多态用于设计模式之“模板模式” • 这样之后如果有一个任务是要基于 eatFood 做文章，比如要重复 eatFood 两遍。 • 就可以封装到一个函数 eatTwice 里，这个函数只需接受他们共同的基类 IObject 作为参数，然后调用 eatFood 这个虚函数来做事（而不是直接操作具体的猫和狗本身）。 • 这样只需要写一遍 eatTwice

0 码力 | 54 页 | 3.94 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

能够完成简单算法的复杂度分析。 2.2 迭代与递归在算法中，重复执行某个任务是很常见的，它与复杂度分析息息相关。因此，在介绍时间复杂度和空间复杂度之前，我们先来了解如何在程序中实现重复执行任务，即两种基本的程序控制结构：迭代、递归。 2.2.1 迭代迭代（iteration）是一种重复执行某个任务的控制结构。在迭代中，程序会在满足一定的条件下重复执行某段代码，直到这个条件不再满足。求和函数的递归过程虽然从计算角度看，迭代与递归可以得到相同的结果，但它们代表了两种完全不同的思考和解决问题的范式。 ‧ 迭代：“自下而上”地解决问题。从最基础的步骤开始，然后不断重复或累加这些步骤，直到任务完成。 ‧ 递归：“自上而下”地解决问题。将原问题分解为更小的子问题，这些子问题和原问题具有相同的形式。接下来将子问题继续分解为更小的子问题，直到基本情况时停止（基本情况的解是已知的）。以上述求和函数为例，设问题函数调用自身时间效率效率通常较高，无函数调用开销每次函数调用都会产生开销内存使用通常使用固定大小的内存空间累积函数调用可能使用大量的栈帧空间适用问题适用于简单循环任务，代码直观、可读性好适用于子问题分解，如树、图、分治、回溯等，代码结构简洁、清晰 Tip 如果感觉以下内容理解困难，可以在读完“栈”章节后再来复习。那么，迭代和递归具有什么内在联

0 码力 | 379 页 | 18.47 MB | 1 年前
3

共 23 条前往

页

C++高性性能高性能并行编程优化课件 08 07 05 深入深入浅出MFC 06 现代教程高速上手 11 14 17 20 10 Hello 算法 1.1

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

《深入浅出MFC》2/e

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

现代C++ 教程：高速上手C++11/14/17/20

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

Hello 算法 1.1.0 C++ 版