读偏移 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

这是通常来说，不过万一小彭老师真的这么重口味在吃答辩呢？要怎么传达这个信息？ C++ 一视同仁的接口就能处理这种罕见的情况，不过 Python 用一些 if 语句套一套一样可以。深入理解 Python 中 [] 能自动区分是读是写的原理 • 写入要创建元素，而读取则要在元素不存在时出错，确实应该是两个不同的函数。 • 为什么 Python 不用区分读取和写入两个函数？只有统一的 [] ？因为 Python 作为老牌胶水语言，为了 val) 。 • val = m[key] 实际上是 val = m.__getitem__(key) 。 • C++ 的 [] 就不论读取还是写入都是同一个运算符重载，他只是返回引用，无法区分你是读是写： • value_type &operator[](key_type key); // [] 返回引用，你 = val 写入的是这个引用， [] 是不知道的 • [] 被调用的时候根本建立引用 ) map 中的堆空间 • 何况 structural-binding 捕获的引用比刚刚图示的还要优化。他只会保存一个指向 pair 类型的指针，然后在你使用 k 和 v 时再去按偏移量访问里面的 first 和 second ，所以 k ， v 两个变量的 structural-binding 引用其实是一个引用，只占一个指针的空间（ 8 字节）。 • 也就是说，现在只要

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

常见操作所花费的时间 • 图中加法 (add) 和乘法 (mul) 都指的整数。 • 区别是浮点的乘法和加法基本是一样速度。 • L1/2/3 read 和 Main RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ 宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound ，数据量尽量足够小，如果能装的进缓存就高效了。 L2: 256 KB L3: 12 MB 缓存的工作机制：读 • 缓存中存储的数据结构： • struct CacheEntry { • bool valid; • uint64_t address; • char data[64]; CacheEntry cache[512]; • 当 CPU 读取一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则给 CPU 返回缓存中的数据。如果找不到，则向主内存发送请求，等读取到该地址的数据，就创建一个新条目。 • 在 x86 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 • 当访问 0x0048~0x0050 这

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

比一堆 if-else 更高效。但是实际上在编译器看来是一样的，不管你 if-else 还是 switch ，他都会想方设法帮你优化成查表法。 • 所以不用纠结性能，你觉得哪种写起来可读性强，容易维护，你就怎么写。无分支优化的方法：查表法 • 如果每个判断的值是连续的，这种情况一般会建立一个表（数组）。 • 这个表里每个元素就是原来要返回的一个个值，索引就是要判断的参数 • 而函数指针也是无条件跳转指令： jmp [pointer] 或者说 call [pointer] ，区别在于他的地址不是写死的，而是动态从内存中读取出来的。 • 普通函数调用的目的地址（或偏移量）写死在指令里， CPU 可以自动预取这个地址的指令。 • 但是函数指针的调用，因为这个目的地址是需要计算得出的，或者说他存在内存中，随时可能被改写， CPU 难以预判执行到 call [pointer]

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

函数，他位于 sys/mman.h 头文件里。 • Windows 可以用 VirtualAllocateEx 之类。 • mmap 出来的起始地址保证是对齐到 4KB 的，读写访问其中偏移地址时，会按页的粒度自动分配和释放内存，从而满足稀疏数据结构“按需分配”的需求。且由于分页是硬件自动来做的，比我们软件哈希和指针数组的稀疏更高效，写起来就和普通的二维数组没什么两样，就好像顺序访问。也用不着什么访问者缓存坐标和块指针了，硬件的 TLB 就是我们的访问者缓存，而且超快不需要用户自己写。 • 垃圾回收可用 madvice 提前释放一段页面。 • 除此之外， mmap 还有一个好处，他会保证其内存（被读取访问时）是零初始化的。配合莫顿分块， AOSOA 等第七课的技术，就得到 SPGrid(sparse-paged grid) SPGrid 还支持自适应的网格 SPGrid 的利弊 •

0 码力 | 102 页 | 9.50 MB | 1 年前
3
Hello 算法 1.0.0b1 C++版

行文风格约定标题后标注 * 的是选读章节，内容相对较难。如果你的时间有限，建议可以先跳过。文章中的重要名词会用「括号」标注，例如「数组 Array」。建议记住这些名词，包括英文翻译，以便后续阅读文献时使用。重点内容、总起句、总结句会被加粗，此类文字值得特别关注。专有名词和有特指含义的词句会使用“双引号” 标注，以避免歧义。 0. 写在前面 hello‑algo.com 4 本书本书的配套代码托管在GitHub 仓库，源代码包含详细注释，配有测试样例，可以直接运行。 ‧ 若学习时间紧张，建议至少将所有代码通读并运行一遍。 ‧ 若时间允许，强烈建议对照着代码自己敲一遍。相比于读代码，写代码的过程往往能带来新的收获。 0. 写在前面 hello‑algo.com 5 Figure 0‑4. 运行代码示例第一步：安装本地编程环境。参照附录教程，如果已有可直接跳过。第二步：下载代码仓。如果已经安装 = firtstElementAddr + elementLength * elementIndex 为什么数组元素索引从 0 开始编号？根据地址计算公式，索引本质上表示的是内存地址偏移量，首个元素的地址偏移量是 0 ，那么索引是 0 也就很自然了。访问元素的高效性带来了许多便利。例如，我们可以在 ?(1) 时间内随机获取一个数组中的元素。 // === File: array.cpp

0 码力 | 187 页 | 14.71 MB | 1 年前
3
Hello 算法 1.0.0b2 C++版

行文风格约定标题后标注 * 的是选读章节，内容相对较难。如果你的时间有限，建议可以先跳过。文章中的重要名词会用「括号」标注，例如「数组 Array」。建议记住这些名词，包括英文翻译，以便后续阅读文献时使用。重点内容、总起句、总结句会被加粗，此类文字值得特别关注。专有名词和有特指含义的词句会使用“双引号” 标注，以避免歧义。 0. 写在前面 hello‑algo.com 4 本书本书的配套代码托管在GitHub 仓库，源代码包含详细注释，配有测试样例，可以直接运行。 ‧ 若学习时间紧张，建议至少将所有代码通读并运行一遍。 ‧ 若时间允许，强烈建议对照着代码自己敲一遍。相比于读代码，写代码的过程往往能带来新的收获。 0. 写在前面 hello‑algo.com 5 Figure 0‑4. 运行代码示例第一步：安装本地编程环境。参照附录教程，如果已有可直接跳过。第二步：下载代码仓。如果已经安装 = firtstElementAddr + elementLength * elementIndex 为什么数组元素索引从 0 开始编号？根据地址计算公式，索引本质上表示的是内存地址偏移量，首个元素的地址偏移量是 0 ，那么索引是 0 也就很自然了。访问元素的高效性带来了许多便利。例如，我们可以在 ?(1) 时间内随机获取一个数组中的元素。 // === File: array.cpp

0 码力 | 197 页 | 15.72 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

char characters[5]; bool bools[5]; 3.3 数字编码 * Note 在本书中，标题带有 * 符号的是选读章节。如果你时间有限或感到理解困难，可以先跳过，等学完必读章节后再单独攻克。第 3 章数据结构 hello‑algo.com 56 3.3.1 原码、反码和补码在上一节的表格中我们发现，所有整数类型能够表示的负数都比正数多一个，例如 byte 的取值范围是 4‑2 数组元素的内存地址计算观察图 4‑2 ，我们发现数组首个元素的索引为 0 ，这似乎有些反直觉，因为从 1 开始计数会更自然。但从地址计算公式的角度看，索引本质上是内存地址的偏移量。首个元素的地址偏移量是 0 ，因此它的索引为 0 是合理的。在数组中访问元素非常高效，我们可以在 ?(1) 时间内随机访问数组中的任意一个元素。 // === File: array.cpp === 据，例如 int、double、 string、object 等。相对地，数组元素则必须是相同类型的，这样才能通过计算偏移量来获取对应元素位置。例如，数组同时包含 int 和 long 两种类型，单个元素分别占用 4 字节和 8 字节，此时就不能用以下公式计算偏移量了，因为数组中包含了两种“元素长度”。 # 元素内存地址 = 数组内存地址（首元素内存地址） + 元素长度 * 元素索引

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0b4 C++版

两眼一抹黑地刷题似乎是最受欢迎的方法，简单直接且有效。然而，刷题就如同玩“扫雷”游戏，自学能力强的同学能够顺利地将地雷逐个排掉，而基础不足的同学很可能被炸的满头是包，并在挫折中步步退缩。通读教材书籍也是一种常见做法，但对于面向求职的同学来说，毕业季、投递简历、准备笔试面试已经占据了大部分精力，厚重的书籍往往变成了一项艰巨的挑战。如果你也面临类似的困扰，那么很幸运这本书找到了你。本为什么数组元素的索引要从 0 开始编号呢？观察上图，我们发现数组首个元素的索引为 0 ，这似乎有些反直觉，因为从 1 开始计数会更自然。然而，从地址计算公式的角度看，索引本质上表示的是内存地址的偏移量。首个元素的地址偏移量是 0 ，因此索引为 0 也是合理的。访问元素的高效性带来了诸多便利。例如，我们可以在 ?(1) 时间内随机获取数组中的任意一个元素。 // === File: array int, double, string, object 等。相对地，数组元素则必须是相同类型的，这样才能通过计算偏移量来获取对应元素位置。例如，如果数组同时包含 int 和 long 两种类型，单个元素分别占用 4 bytes 和 8 bytes ，那么此时就不能用以下公式计算偏移量了，因为数组中包含了两种 elementLength 。 // 元素内存地址 = 数组内存地址 + 元素长度

0 码力 | 343 页 | 27.39 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

char characters[5]; bool bools[5]; 3.3 数字编码 * Tip 在本书中，标题带有 * 符号的是选读章节。如果你时间有限或感到理解困难，可以先跳过，等学完必读章节后再单独攻克。第 3 章数据结构 www.hello‑algo.com 56 3.3.1 原码、反码和补码在上一节的表格中我们发现，所有整数类型能够表示的负数都比正数多一个，例如 byte 4‑2 数组元素的内存地址计算观察图 4‑2 ，我们发现数组首个元素的索引为 0 ，这似乎有些反直觉，因为从 1 开始计数会更自然。但从地址计算公式的角度看，索引本质上是内存地址的偏移量。首个元素的地址偏移量是 0 ，因此它的索引为 0 是合理的。在数组中访问元素非常高效，我们可以在 ?(1) 时间内随机访问数组中的任意一个元素。 // === File: array.cpp === 据，例如 int、double、 string、object 等。相对地，数组元素则必须是相同类型的，这样才能通过计算偏移量来获取对应元素位置。例如，数组同时包含 int 和 long 两种类型，单个元素分别占用 4 字节和 8 字节，此时就不能用以下公式计算偏移量了，因为数组中包含了两种“元素长度”。 # 元素内存地址 = 数组内存地址（首元素内存地址） + 元素长度 * 元素索引

0 码力 | 379 页 | 18.48 MB | 10 月前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

*dst = src; • 为什么需要这么复杂的一个原子指令？ atomicCAS ：可以实现任意原子操作 • atomicCAS 的作用在于他可以用来实现任意 CUDA 没有提供的原子读 - 修改 - 写回指令。比如这里我们通过 atomicCAS 实现了整数 atomicAdd 同样的效果。 atomicCAS ：可以实现任意原子操作 • 里面换成 expect * src 了。 • 但是因为我们的目的是做矩阵转置，无论是 in 还是 out 必然有一个是需要跨步的，怎么办？ • 因此可以先通过把 in 分块，按块跨步地读，而块内部则仍是连续地读——从低效全局的内存读到高效的共享内存中，然后在共享内存中跨步地读，连续地写到 out 指向的低效的全局内存中。 • 这样跨步的开销就开在高效的共享内存上，而不是低效的全局内存上，因此会变快。共享内存：什么是区块（

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 17 条前往

页

C++高性性能高性能并行编程优化课件 17 07 10 Hello 算法 1.0 0b1 0b2 1.1 0b4 1.2 简体中文简体中文 08

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

Hello 算法 1.0.0b1 C++版

Hello 算法 1.0.0b2 C++版

Hello 算法 1.1.0 C++ 版

Hello 算法 1.0.0b4 C++版

Hello 算法 1.2.0 简体中文 C++ 版

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程