精确去重 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

，前面加上 __global__ 修饰符，即可让他在 GPU 上执行。 • 不过调用 kernel 时，不能直接 kernel() ，而是要用 kernel<<<1, 1>>>() 这样的三重尖括号语法。为什么？这里面的两个 1 有什么用？稍后会说明。 • 运行以后，就会在 GPU 上执行 printf 了。 • 这里的 kernel 函数在 GPU 上执行，称为核函数，用 GPU 上的设备函数 • __global__ 用于定义核函数，他在 GPU 上执行，从 CPU 端通过三重尖括号语法调用，可以有参数，不可以有返回值。 • 而 __device__ 则用于定义设备函数，他在 GPU 上执行，但是从 GPU 上调用的，而且不需要三重尖括号，和普通函数用起来一样，可以有参数，有返回值。 • 即： host 可以调用 global ； global device 。声明为内联函数 • 注意， inline 在现代 C++ 中的效果是声明一个函数为 weak 符号，和性能优化意义上的内联无关。 • 优化意义上的内联指把函数体直接放到调用者那里去。 • 因此 CUDA 编译器提供了一个“私货”关键字： __inline__ 来声明一个函数为内联。不论是 CPU 函数还是 GPU 都可以使用，只要你用的 CUDA 编译器。 GCC 编译器相应的私货则

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

都是能存储一连串数据的容器。 • 区别 1 ： set 会自动给其中的元素从小到大排序，而 vector 会保持插入时的顺序。 • 区别 2 ： set 会把重复的元素去除，只保留一个，即去重。 • 区别 3 ： vector 中的元素在内存中是连续的，可以高效地按索引随机访问， set 则不行。 • 区别 4 ： set 中的元素可以高效地按值查找，而 vector 则低效。 • 其实 string 类定义了运算符重载 < ，他会按字典序比较两个字符串。所谓字典序就是优先比较两者第一个字符（按 ASCII 码比较），如果相等则继续比较下一个，不相等则直接以这个比较的结果返回。如果比到末尾都相等且字符串长度一样，则视为相等。警告：千万别用 set 做字符串集合。这样只会按字符串指针的地址去判断相等，而不是所指向字符串的内容。 set 的排序：自定义排序函数 • 恶搞一下，这里我们把比较函子 MyComp 定义成只比较字符串第一个字符 a[0] < b[0] 。 • 神奇的一幕发生了，“ any” 不见了！为什么？因为去重！ • 为什么 set 会把 “ arch” 和 “ any” 视为相等的元素？明明内容都不一样？ set 的排序：自定义排序函数 • 首先搞懂 set 内部是怎么确定两个元素 a

0 码力 | 83 页 | 10.23 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

vector 容器 • 添加一个运算符重载用于打印 vector 类型。 vector 容器：构造函数 • vector 的这个显式构造函数，默认会把所有元素都初始化为 0 （不必手动去 memset ）。 • 如果是其他自定义类，则会调用元素的默认构造函数（例如：数字类型会初始化为 0 ， string 会初始化为空字符串，指针类型会初始化为 nullptr ） • vector 对象被解构。 vector 容器：重新 resize 到原来尺寸也不会导致 data 失效 • 调用了 a.resize(2) 之后，数组的容量仍然是 5 ，因此重新扩容到 5 是不需要重新分配内存的，也就不会移动元素导致指针失效。 vector 容器： capacity 函数查询实际的最大容量 • 可以用 capacity() 函数查询已经分配内存的大小，即最大容量。 size); • 不妨改用首地址指针和尾地址指针如何？ • print(char const *begptr, size_t endptr); • 注意看，我们在 print 里也不是用数组下标去迭代，而是用指针作为迭代变量了。迭代器模式：首指针＋尾指针 • 改用首地址指针和尾地址指针以后，要特别注意一点：尾地址指针实际上是指向末尾元素再往后后一个元素的指针！ • 也就是说尾地址指针所指向的地方是无效

0 码力 | 90 页 | 4.93 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

所以这位同学是人类思维，相当于 Python 的精分 API 。而如果另一个同学是硬核的计算机思维，相当于 C++ 的一视同仁 API ，他会以为小彭老师真的在吃答辩。 • 这是通常来说，不过万一小彭老师真的这么重口味在吃答辩呢？要怎么传达这个信息？ C++ 一视同仁的接口就能处理这种罕见的情况，不过 Python 用一些 if 语句套一套一样可以。深入理解 Python 中 [] 能自动区分是读是写的原理 second 就是 V 。 • 要把所有 V 打印出来，就是： • for (auto tmp: m) { • print(tmp.second); } • 这样要通过 pair 的成员去访问 K 和 V 还是很麻烦，能不能更直观一点？ • for (auto tmp: m) { • print(tmp.first, tmp.second); } • 答案是同属于 C++17 v v v 小大第三章：二叉排序树高效的查找离不开我高效的查找离不开我回顾 set 容器 • 上一期 (BV1m34y157wb) ，我们已经讲了 set 容器，特点是自动去重 + 高效查找。 • set 容器中的类型通过模板来指定： set • set 容器又可以分为 set 、 multiset 、 unordered_set 、 unordered_multiset

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

（空指针）图片解释：指针数组的稀疏这样指针表中为 null 的部分，稠密叶节点的内存就省掉了垃圾回收 (garbage-collect) • 如果是运行的仿真，则液体可能会移动到别的地方去。这时液体曾经存在过的地方也仍然处于激活状态，可以每隔若干帧及时释放掉这些不用的指针块以节省内存。 unordered_map 作为顶层，指针作为中层，稠密数组作为底层 • 实现稀疏的方法有： • bfloat16 具有 8 位指数， 7 位底数。 • float16 具有 5 位指数， 10 位底数。 • 可见 bfloat16 的指数部分占得比较多，而底数就很少，这样会有一点不精确，优点是和 float 之间转换的位运算实现起来比较简单。 double: float: bfloat16: 图片解释 bfloat16 ， float16 ， float32 的关系 bfloat16

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

倍的换算的，而我们的系统中一般都是按照 1024 倍去计算的。字还被用于表示内存地址 • 字的长度除了决定一次处理的整数大小之外，还决定了能访问的内存地址的范围。 • 这是因为内存是一维排列的，假如内存容量是 65536 字节，那所谓的内存地址实际上就是一个从 0 到 65535 范围的整数，也就是两个字节组成的字。 • 处理器去读写内存的时候靠的是寄存器提供的地址，因此寄存器的大小（也就是字的大 printf 里却以 “ %f” 的方式去读出，所以出错了。 • 因此我们先把 abs 的返回值写入到一个 float 类型变量里试试看，果然有了变化。 • 但还是不对，按理说 abs(-3.14) 应该是 3.14 的，怎么会变成 3.00 呢？ abs 函数：取出整数的绝对值 • 这就是第二个 bug 了， C 语言的函数没有重载，他的 abs 只是一个 int 类型的函数：数组，其中 4 代表 int 类型的大小。如果想要的是 short 数组呢？ • 已知 short 的大小是 2 字节，所以用 malloc(n * 2) 。 • 但是这样需要我们自己去背每个类型的大小，很不方便，有没有办法自动获取某个类型的大小呢？如果想要的是任意类型的数组呢？ • 可以用 sizeof(T) 来获取任意类型 T 的大小（多少字节） • sizeof(int)

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

因此若对提高性能不感兴趣，可以这样写：拷贝赋值函数：提高性能 • 区分两种拷贝可以提高性能。 • 内存的销毁重新分配可以通过 realloc ，从而就地利用当前现有的 m_data ，避免重新分配。 • 因此拷贝赋值函数还是自定义下比较好： • 这解释了“如果一个类定义或删除了拷贝构造函数，那么您必须同时定义或删除拷贝赋值函数，否则出错。” C++11 ：为什么区分拷贝和移动？到底有哪些意思…… 来学智能指针压压惊 • 如果构造函数全家桶搞得你晕头转向了，那让我们来点（相对）简单的作为饭后甜点吧！ C++98 ：令人头疼的内存管理 • 在没有智能指针的 C++ 中，我们只能手动去 new 和 delete 指针。这非常容易出错，一旦马虎的程序员忘记释放指针，就会导致内存泄露等情况，更可能被黑客利用空悬指针篡改系统内存从而盗取重要数据等。 RAII 解决内存管理的问题：请根据你的具体情况，决定要选用哪一种解决方案。移交控制权后仍希望访问到 p 指向的对象 • 解决方案 2 中，有时候我们会遇到移交控制权后，仍希望访问到对象的需求。 • 如果还是用 p 去访问的话，因为被移动构造函数转移了， p 已经变成空指针，从而出错。解决方案：提前获取原始指针 • 最简单的办法是，在移交控制权给 func 前，提前通过 p.get() 获取原始指针：

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

bitcast 一下参数。 stream 的特点：不会读到缓存里 • 因为 _mm_stream_si32 会绕开缓存，直接把数据写到内存，之后读取的话，反而需要等待 stream 写回执行完成，然后重新读取到缓存，反而更低效。 • 因此，仅当这些情况： 1. 该数组只有写入，之前完全没有读取过。 2. 之后没有再读取该数组的地方。 • 才应该用 stream 指令。 4 倍矢量化的版本： AlignedAllocator 他可以指定任意对齐，他底层也是基于 aligned_alloc 实现的。案例：临时创建的数组 • 临时创建的数组，每次调用 func 都会重复内存分配一次（进入一次内核态），非常浪费时间。解决：手动池化 • 声明为 static 变量，这样第二次进入 func 的时候还是同一个数组，不需要重复分配内存。 thread_local _mm_stream_ps 和 SIMD 指令，加速计算和直写 • 为了充分填满寄存器，我们把 t 循环和 offset 循环交换一下（ loop-interchange ），把 offset 换到内层循环去。这样至少能让四个寄存器同时在进行加法运算（ xmm 寄存器最多有几个来着？总之也不能太多，不然被编译器 spill 到内存就不好了），从而让 CPU 能够发现并启动指令级并行（ ILP

0 码力 | 147 页 | 18.88 MB | 1 年前
3
Rust分布式账务系统 - 胡宇

接受转账请求，转换成 events ● 2. 将 events 送入 Raft 共识，等待 events 被多数节点保存 ● 3. 处理被共识的 events ，更新状态机（账户表） ○ 去重 & 更新余额 ○ 关键路径采用无锁单线程账户层： Auticuro 分布式账务系统 1 2 3 4 ● 1. 接受转账请求，转换成 events ● 2. 将 events 送入

0 码力 | 27 页 | 12.60 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

如果烧开水时被烫伤，则跳转到去医院刷牙 5 分钟嘴巴，手看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股去医院 10 分钟全身无条件跳转指令 • 还有一个小问题，就是执行正常的分支走到“拉粑粑”后，还会去医院。 • 为了在正常分支里不去医院，我们在“拉粑粑”后面加一条无条件跳转指令，不论条件如何，直接跳转到去医院的下一条指令，也就是程序结吃饭 ; 拉粑粑 ; • } else { • 去医院 ; • } 任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶如果烧开水时被烫伤，则跳转到去医院刷牙 5 分钟嘴巴，手看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股（无条件）跳转到结束去医院 10 分钟全身结束跳转指令对流水线效率的影响 ”才能决定接下来是正常刷牙还是去医院。这意味着流水线不得不在跳转指令前后发生断层（俗称流水线里的气泡）。不得不等待烧开水这个任务结束，才能确定接下来要执行哪个剧本：正常继续早餐，还是说要前往医院。洗脸刷牙烧开水吃饭看比站拉粑粑 5 5 10 20 刷牙吃饭看比站拉粑粑 5 10 20 洗脸烧开水 5 5 没烫伤去医院 10 烫伤了没分支时：总计

0 码力 | 47 页 | 8.45 MB | 1 年前
3

共 21 条前往

页

C++高性性能高性能并行编程优化课件 08 14 13 17 10 12 02 07 胡宇 rust 分布布式分布式账务系统

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

Rust分布式账务系统 - 胡宇

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming