文件存储 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评什么是 xmm 系列寄存器？ • xmm 寄存器有 128 位宽。 • 可以容纳 4 个 float ，或 2 个 double 。 • 刚才的案例中只用到了 xmm 的低 32 位用于存储 1 个 float 。 addss 是什么意思？ • 可以拆分成三个部分： add ， s ， s 1. add 表示执行加法操作。 2. 第一个 s 表示标量 (scalar) ，只对 xmm 的容器：我是说，内存分配在堆上的容器 • 存储在堆上（妨碍优化）： • vector, map, set, string, function, any • unique_ptr, shared_ptr, weak_ptr • 存储在栈上（利于优化）： • array, bitset, glm::vec, string_view • pair, tuple, optional, variant 存储在栈上无法动态扩充大小，这就是

0 码力 | 108 页 | 9.47 MB | 1 年前
3
谈谈MYSQL那点事

• 数据存储方式简单，使用数据存储方式简单，使用 B+ Tree B+ Tree 进行索引进行索引 • 使用三个文件定义一个表：使用三个文件定义一个表： .MYI .MYD .frm .MYI .MYD .frm • 少碎片、支持大文件、能够进行索引压缩少碎片、支持大文件、能够进行索引压缩 • 二进制层次的文件可以移植二进制层次的文件可以移植 (Linux (Linux (Linux   Windows) Windows) • 访问速度飞快，是所有访问速度飞快，是所有 MySQL MySQL 文件引擎中速度最快的文件引擎中速度最快的 • 不支持一些数据库特性，比如事务、外键约束等不支持一些数据库特性，比如事务、外键约束等 • Table level lock Table level lock ，性能稍差，更适合读取多的操作，性能稍差，更适合读取多的操作的方式来进行数据存储的方式来进行数据存储 (ibdata1, ib_logfile0) (ibdata1, ib_logfile0) • 支持事务、外键约束等数据库特性支持事务、外键约束等数据库特性 • Rows level lock , Rows level lock , 读写性能都非常优秀读写性能都非常优秀 • 能够承载大数据量的存储和访问能够承载大数据量的存储和访问 •

0 码力 | 38 页 | 2.04 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评编译器就可以自动优化为一个空函数。因此模板元编程对高性能编程很重要。 • 通常来说，模板的内部实现需要被暴露出来，除非使用特殊的手段，否则，定义和实现都必须放在头文件里。 • 但也正因如此，如果过度使用模板，会导致生成的二进制文件大小剧增，编译变得很慢等。 boost 编译慢的原因找到了……因为他们用了大量的模板。模板的应用：编译期优化案例 • 在右边这个案例中，我们声明了一个）的，不能分离声明和定义在另一个文件里。标准库的很多函数如 std::min 也是 constexpr 函数，可以放心大胆在模板尖括号内使用。模板的难题：移到另一个文件中定义 • 如果我们试着像传统函数那样分离模板函数的声明与实现： • 就会出现 undefined reference 错误：模板的难题：移到另一个文件中定义（续） • 这是因为编译器对模板的编译是惰性的，即只有当前 .cpp 文件用到了这个模板，该模板

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

里直接加你的 .cu 文件，和 .cpp 一样。 https://www.nvidia.cn/docs/IO/51635/NVIDIA_CUDA_Programming_Guide_1.1_chs.pdf CUDA 编译器兼容 C++17 • CUDA 的语法，基本完全兼容 C++ 。包括 C+ +17 新特性，都可以用。甚至可以把任何一个 C++ 项目的文件后缀名全部改成 .cu ，都能编 CUDA 的一大好处， CUDA 和 C++ 的关系就像 C++ 和 C 的关系一样，大部分都兼容，因此能很方便地重用 C++ 现有的任何代码库，引用 C++ 头文件等。 • host 代码和 device 代码写在同一个文件内，这是 OpenCL 做不到的。编写一段在 GPU 上运行的代码 • 定义函数 kernel ，前面加上 __global__ 修饰符，即可让他在 GPU 算表达式之类的，一个个加上太累了，所以产生了这个需求。 • 不过必须指定 --expt-relaxed-constexpr 这个选项才能用这个特性，我们可以用 CMake 的生成器表达式来实现只对 .cu 文件开启此选项（不然给到 gcc 就出错了）。 • 当然， constexpr 里没办法调用 printf ，也不能用 __syncthreads 之类的 GPU 特有的函数，因此也不能完全替代

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

计算机如何表达字符 • 众所周知，计算机只能处理二进制整数，字符要怎么办呢？ • 于是就有了 ASCII 码表，他规定，每个英文字符（包括大小写字母、数字、特殊符号）都对应着一个整数。在计算机里只要存储这个的整数，就能代表这个字符了。 • 例如 32 代表空格， 48 代表 ‘ 0’ ， 65 代表 ‘ A’ ， 97 代表 ‘ a’…… • 32~126 这些整数就用于是表示这些可显示字符和 string 其实都是胖指针。 • string 和 vector 内部都有三个成员变量： ptr, len, capacity 。 • 前两个 [ptr, len] 其实就是表示实际有效范围（存储了字符的）的胖指针。 • 而 [ptr, capacity] 就是表示实际已分配内存（操作系统认为的）的胖指针。 • struct vector { • char *ptr; • size_t string 克服了 C 语言 0 结尾字符串的缺点： • 字符串本身可以含有 ‘ \0’ 了，这下任何字符都众生平等。 • 末尾没有 ‘ \0’ 额外浪费的空间（除非调用 c_str 时）。 • 长度已经存储在 string 的成员里， size() 是 O(1) 的。 • 在尾部切片可以用 resize() 修改长度，无需写入字符串本身。 • string_view 和 span 无非是个弱引用版本，额外增加了在头部切片的能力而

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

CPU 的厂商早就意识到了内存延迟高，读写效率低下的问题。因此他们在 CPU 内部引入了一片极小的存储器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的数据。如果没有，则从内存中读取，并存储到缓存中；如果有，则直接使用缓存中的数据。 • 这样一来，访问的数据量比较小时，就可以自动预先加宽。三级缓存也装不下，那就取决于主内存的带宽了。 • 结论：要避免 mem-bound ，数据量尽量足够小，如果能装的进缓存就高效了。 L2: 256 KB L3: 12 MB 缓存的工作机制：读 • 缓存中存储的数据结构： • struct CacheEntry { • bool valid; • uint64_t address; • char data[64]; • }; 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 • 当访问 0x0048~0x0050 这 4 个字节时，实际会导致 0x0040~0x0080 的 64 字节数据整个被读取到缓存中。 • 这就是为什么我们喜欢把数据结构的起始地址和大小对齐到 64 字节，为的是不要浪费缓存行的存储空间。缓存的工作机制：写 • 缓存中存储的数据结构：

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

项目的构建分为两步： • 第一步是 cmake -B build ，称为配置阶段（ configure ），这时只检测环境并生成构建规则 • 会在 build 目录下生成本地构建系统能识别的项目文件（ Makefile 或是 .sln ） • 第二步是 cmake --build build ，称为构建阶段（ build ），这时才实际调用编译器来编译代码 • 在配置阶段可以通过 -D 设置缓存变量。第二次配置时，之前的现在只需要写一次 CMakeLists.txt ，他会视不同的操作系统，生成不同构建系统的规则文件。 • 那个和操作系统绑定的构建系统（ make 、 MSBuild ）称为本地构建系统（ native buildsystem ）。 • 负责从 CMakeLists.txt 生成本地构建系统构建规则文件的，称为生成器（ generator ）。 -G 选项：指定要用的生成器 • Linux 启动时会把每个文件都检测一遍，浪费很多时间。特别是有很多文件，但是实际需要构建的只有一小部分，从而是 I/O Bound 的时候， Ninja 的速度提升就很明显。然而某些专利公司的 CUDA toolkit 在 Windows 上只允许用 MSBuild 构建，不能用 Ninja （怕不是和 Bill Gates 有什么交易）第 1 章：添加源文件一个 .cpp 源文件用于测试

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

如果你没看出来（哪怕是其中一个），那就要好好上小彭老师的课哦！字节（ byte ）和位（ bit ）有什么区别 • 众所周知，计算机是二进制的，存储的实际上是一个个 0 和 1 。 • 每个存储 0 或 1 的空间称为一个位（ bit ），一位可以存储 0 或 1 两个可能的值。 • 现在的计算机都会把 8 个位打包成一个字节（ byte ），也就是说： 1 字节 = 8 位。 • 一字节可以表示 = 1024 KB • 1 GB = 1024 MB • 1 TB = 1024 GB • 也有人说 1 KiB 才是 1024 B 的，但是很少有人采用这种写法…… • 在买硬盘和 u 盘等存储设备的时候，往往会出现容量减少的情况，这是因为生产厂家按照的是 1000 倍的换算的，而我们的系统中一般都是按照 1024 倍去计算的。字还被用于表示内存地址 • 字的长度除了决定一次处理大小（也就是字的大小）决定了他能读写的内存大小，例如： • 由于 16 位计算机的寄存器只能存储 16 位，他只能访问 65536 字节（ 64 KB ）的内存。 • 由于 32 位计算机的寄存器只能存储 32 位，他只能访问 4 GB 的内存。 • 由于 64 位计算机的寄存器能存储 64 位，他理论上能访问 16777216 TB 的内存！ • 因此，如果你的电脑内存超过了 4

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评，表示让当前线程休眠直到某个时间点。第 1 章：线程进程与线程 • 进程是一个应用程序被操作系统拉起来加载到内存之后从开始执行到执行结束的这样一个过程。简单来说，进程是程序（应用程序，可执行文件）的一次执行。比如双击打开一个桌面应用软件就是开启了一个进程。 • 线程是进程中的一个实体，是被系统独立分配和调度的基本单位。也有说，线程是 CPU 可执行调度的最小单位。也就是说，进程本身并不能获取 • 我们的程序常常需要同时处理多个任务。 • 例如：后台在执行一个很耗时的任务，比如下载一个文件，同时还要和用户交互。 • 这在 GUI 应用程序中很常见，比如浏览器在后台下载文件的同时，用户仍然可以用鼠标操作其 UI 界面。没有多线程：程序未响应 • 没有多线程的话，就必须等文件下载完了才能继续和用户交互。 • 下载完成前，整个界面都会处于“未响应”状态，用户想做别的事情就做不了。

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

DogObject 继承自 IObject ，他们实现了 eatFood 这个虚函数，实现了多态。 • 注意这里解构函数（ ~IObject ）也需要是虚函数，否则以 IObject * 存储的指针在 delete 时只会释放 IObject 里的成员，而不会释放 CatObject 里的成员 string m_catFood 。所以这里的解构函数也是多态的，他根据类型的不同），然后一个声明该类的全局变量（ helper ），就可以保证： • 1. 该类的构造函数一定在 main 之前执行 • 2. 该类的解构函数一定在 main 之后执行 • 该技巧可用于在程序退出时删除某些文件之类。 • 这就是小彭老师的静态初始化 (static-init) 大法。静态初始化用于批量注册函数 • 我们可以定义一个全局的函数表（右图中的 functab ），然后利用小彭老师的静态初始化 functab 访问到他们，从而 catFunc 和 dogFunc 甚至不需要在头文件里声明（只需要他们的函数签名一样即可放入 function 容器）。静态初始化的顺序是符号定义的顺序决定的，若在不同文件则顺序可能打乱 • 你可能已经兴冲冲地把 dogFunc 和 catFunc 挪到另一个文件，然后把 functab 声明为 extern std::map<...> functab;

0 码力 | 54 页 | 3.94 MB | 1 年前
3

共 29 条前往

页

C++高性性能高性能并行编程优化课件 04 MySQL 03 08 15 07 11 12 05

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

谈谈MYSQL那点事

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践