线性查找 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

，内存管理与对象生命周期 10. C++ 异常处理机制的前世今生我们都要认真鞋习哦我们都要认真鞋习哦第一章：读取与写入我负责监督你鞋习 ! 我负责监督你鞋习 ! map 查找元素的两个接口 • map 提供了两个查找元素的接口，一曰 [] ，二曰 at 。 • 那么他们两个又有什么区别呢？很多新手都分不清他俩，可能只认识 [] 。读取 map 元素 • map 从小到大的顺序。 k k k k k k v v v v v v 小大第三章：二叉排序树高效的查找离不开我高效的查找离不开我回顾 set 容器 • 上一期 (BV1m34y157wb) ，我们已经讲了 set 容器，特点是自动去重 + 高效查找。 • set 容器中的类型通过模板来指定： set • set 容器又可以分为 set 、 multiset 、 vector 查找为什么低效 • vector 又称线性数组。在 vector 中查找元素可以用头文件里的 std::find 。 • vector a = { 1, 4, 2, 8, 5, 7 }; • std::find(a.begin(), a.end(), 5); • 这个 std::find 就是标准库帮我们实现的线性数组中查找元素的算法，让我们用动画演示一

0 码力 | 90 页 | 8.76 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

妙用本用于指针的指令，尽管此时 rdi 和 rsi 并不是指针整数加常数乘整数：都可以被优化成 leal 因为这种线性变换在地址索引中很常见，所以被 x86 做成了单独一个指令。这里尽管不是地址，但同样可以利用 lea 指令简化生成的代码大小。 eax = rdi + rsi * 8 指针访问对象：线性访问地址 rsi = (int64_t)esi eax = *(int *)(rdi + rsi * 发现：会让编译变得很慢，因为这 50000 次迭代是在编译期进行的。第 2 章：内联调用外部函数： call 指令 @PLT 是 Procedure Linkage Table 的缩写，即函数链接表。链接器会查找其他 .o 文件中是否定义了 _Z5otheri 这个符号，如果定义了则把这个 @PLT 替换为他的地址。对 PLT 感兴趣？看 https://www.cnblogs.com/panne 编译器还可以用： • #pragma GCC ivdep • 表示忽视下方 for 循环内可能的指针别名现象。 • 不同的编译器这个 pragma 指令不同，这里只是拿 GCC 举例，其他编译器请自行查找资料。循环中的 if 语句：挪到外面来乘法模式加法模式这个案例中，作者的用意很明显，在 is_mul 为真时执行 a *= b ，否则执行 a += b 。然而有 if 分支的循环体是难以

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

的厂商早就意识到了内存延迟高，读写效率低下的问题。因此他们在 CPU 内部引入了一片极小的存储器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的数据。如果没有，则从内存中读取，并存储到缓存中；如果有，则直接使用缓存中的数据。 • 这样一来，访问的数据量比较小时，就可以自动预先加载到这个更高效的缓存里，然后再开始做运算，从而避 • uint64_t address; • char data[64]; • }; • CacheEntry cache[512]; • 当 CPU 读取一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则给 CPU 返回缓存中的数据。如果找不到，则向主内存发送请求，等读取到该地址的数据，就创建一个新条目。 • 在 x86 架构中每个条目的存储 64 字节的数据，这个条目 • uint64_t address; • char data[64]; • }; • CacheEntry cache[512]; • 当 CPU 写入一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则修改缓存中该地址的数据。如果找不到，则创建一个新条目来存储 CPU 写的数据，并标记为脏（ dirty ）。 • 当读和写创建的新条目过多，缓存快要塞不下时，他会把

0 码力 | 147 页 | 18.88 MB | 1 年前
3
Rust与算法 - 谢波

广写作动机当情况不明时，抱着一个纯粹的目标干事就行了，其他的留给时间检验。不懂就学，技术写作更像一种共创，要反复总结和修改 ( 费曼学习法 ) 。写作本书给我的启示基础、排序、查找、树、图代码框、颜色、图片绘制均由 Latex 完成可参考点为什么为什么讲这个话题？为什么要讲数据结构和算法两部分？算法相关知识算法相关知识 • 抽象数据类型 • 时空复杂度时间复杂度更被看重 • 时间和空间复杂度不是对立的，可以协同时间和空间复杂度复杂度计算 • 大Ｏ标记法（数量级近似） • 用 AI 来估计算步骤、算存储 Rust 基本数据结构复杂度线性数据结构非线性数据结构总体来看，时间复杂度没有超过 O(n) 的！ Rust 实现数据结构 • 栈 • 链表 • Vec Rust 实现数据结构栈借助 Vec 容器泛型支持 Option

0 码力 | 28 页 | 3.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

• 不过把 lut 作为数组的方法只适用于自变量 x 连续变化的情况，如果不连续，则只好采用 map 查表了（相当于 Python 的字典）。 • 不过 map 的查找开销更大，复杂度为 O(logn) ，比线性数组的 O(1) 要坏一点点。 • 所以采用 map 也可能导致反而比暴力 if-else 更低效，也可能高效，要测试才知道。 • 抛开性能不谈，从可读性和可维护性上来 • 注：实际中虚函数往往有很多个，为了存储空间的高效利用，会把多个虚函数打包成一个数组，称之为“虚函数表（ vtable ）”。这样一来，类成员里只需要存一个指向虚函数表首地址的指针，之后通过查找该表即可找到连续的 n 个函数指针。此处为了方便理解，右侧案例代码没有用虚函数表。课外拓展 · 参考资料 • 堆栈和 ABI 的知识 https://zhuanlan.zhihu.com/p/27339191

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

标来访问，且提供了线性滤波的能力。 • 在核函数中可以通过 tex3D 来读取纹理中的值。 • 之所以纹理是因为 GPU 一开始是渲染图形的专用硬件，会用到一些贴图等，这就是二维的纹理。 • 当输入的浮点坐标不是整数时，由 GPU 硬件提供双线性插值（ bilerp ），比手写的高效许多。 • 当然如果是三维数组，那就是三维纹理对象，访问时是提供三线性插值（ trilerp 纹理对象：封装 • 其中 cudaTextureFilterMode 表示采样的坐标不是整数时要如何在周围 8 个值之间插值，有以下几种选择： • cudaFilterModeLinear ：三线性插值更平滑（左图） • cudaFilterModePoint ：最接近的那个点作为值（右图）烟雾仿真系统：封装 • 我们统一通过 unique_ptr 来管理对象，这样尽管 CudaSurface 代码（二维定常流仿真），主要由 k-ye 编写，我学习 GAMES201 后贡献了支持 RK2 和 RK3 的版本。这里我们用高效的 CUDA 纹理对象在 C++ 中重新实现了一遍，利用了硬件的三线性插值实现半拉格朗日（ semi-lagrangian ）对流。对流部分：根据对流后位置重新采样 • 和 k-ye 思路不同的是我先在刚刚的 advect_kernel 算出对流后要采样的位置（

0 码力 | 58 页 | 14.90 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

图平台 Atlas Studio Atlas Client 基础设施 Docker/K8S/VM X86/ARM - 基于 RUST 语言保证性能优势 - 分布式架构性能可线性扩展 - 针对大规模图优化的存算引擎 - 配合 Atlas 图平台，实现无代码图分析 - Query 性能分析模块，启发式提示优化 - 内置多种分析函数，面向分析师友好 -MVOCC 保证事务一致性体展现可视化图探索分析 AtlasGraph 架构及实现图技术简介 Takeway AtlasGraph 图数据库关键特性 - 基于 RUST 语言保证性能优势 - 分布式架构性能可线性扩展 - 针对大规模图的优化的存算引擎 - 配合 Atlas 图平台，实现无代码图分析 - Query 性能分析模块，启发式提示优化 - 内置多种分析函数，面向分析师友好 -MVOCC 保证事务一致性

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

的处理能力，是吗？ • 显然不是。甚至在两个处理器上同时运行两个线程也不见得可以获得两倍的性能。相似的，大多数多线程的应用不会比双核处理器的两倍快。他们应该比单核处理器运行的快，但是性能毕竟不是线性增长。 • 为什么无法做到呢？首先，为了保证缓存一致性以及其他握手协议需要运行时间开销。在今天，双核或者四核机器在多线程应用方面，其性能不见得的是单核机器的两倍或者四倍。这一问题一直伴随 CPU 2 3 4 解决 3 ：每个线程一个任务队列，做完本职工作后可以认领其他线程的任务工作窃取法（ work-stealing ）原始的单一任务队列解决 4 ：随机分配法（通过哈希函数或线性函数） • 然而队列的实现较复杂且需要同步机制，还是有一定的 overhead ，因此另一种神奇的解法是： • 我们仍是分配 4 个线程，但还是把图像切分为 16 份。然后规定每一份按照 xy

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

会把重复的元素去除，只保留一个，即去重。 • 区别 3 ： vector 中的元素在内存中是连续的，可以高效地按索引随机访问， set 则不行。 • 区别 4 ： set 中的元素可以高效地按值查找，而 vector 则低效。 set 的排序： string 会按“字典序”来排 • set 会从小到大排序，对 int 来说就是数值的大小比较。那么对字符串类型 string 要怎么排序复的元素，但仍保留自动排序，能高效地查询的特点。 • 特点：因为 multiset 不会去重，但又自动排序，所以其中所有相等的元素都会紧挨着，例如 {1, 2, 2, 4, 6} 。查找 multiset 中的等值区间 • 刚刚说了 multiset 里相等的元素都是紧挨着排列的。 • 所以可以用 upper_bound 和 lower_bound 函数获取所有相等值的区间。 upper_bound(2) 查找 multiset 中的等值区间 • 对于 lower_bound 和 upper_bound 的参数相同的情况，可以用 equal_range 一次性求出两个边界，获得等值区间，更高效。 • pair equal_range(int const &val) const; 查找 multiset 中的等值区间

0 码力 | 83 页 | 10.23 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

六、头文件和源文件的一一对应关系 • 通常每个头文件都有一个对应的源文件，两个文件名字应当相同（方便我们理解，也方便 IDE 跳转），只有后缀名不一样。 • 如果是一个类，则文件名应和类名相同，方便查找（ Animal.cpp ）。 • 头文件中包含函数和类的声明，源文件则包含他们的实现。七、只有头文件，没有源文件的情况 • 有时我们会直接把实现直接写在头文件里，这时可以没有与之对应的源文件，只有一个头文件。中的所有路径下查找 XXX.cmake 这个文件。 • 这样你可以在 XXX.cmake 里写一些你常用的函数，宏，变量等。十三、你知道吗？ CMake 也有 include 功能 • 和 C/C++ 的 #include 一样， CMake 也有一个 include 命令。 • 你写 include(XXX) ，则他会在 CMAKE_MODULE_PATH 这个列表中的所有路径下查找 XXX find_package(OpenCV) • 查找名为 OpenCV 的包，找不到不报错，事后可以通过 ${OpenCV_FOUND} 查询是否找到。 • find_package(OpenCV QUIET) • 查找名为 OpenCV 的包，找不到不报错，也不打印任何信息。 • find_package(OpenCV REQUIRED) # 最常见用法 • 查找名为 OpenCV 的包，找不到就报错（并终止

0 码力 | 56 页 | 6.87 MB | 1 年前
3

共 17 条前往

页

C++高性性能高性能并行编程优化课件 17 04 07 谢波 2023RustChinaConf 大会 Rust 算法 Shieber 09 游人 RustCC AtlasGraph 06 14 16

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

Rust与算法 - 谢波

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

新一代分布式高性能图数据库的构建 - 沈游人

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 14 C++ 标准库系列课 - 你所不知道的 set 容器

C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南