操作系统 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

）不一定就是完美解决方案，要根据实际情况判断。真正的解决： tbb::spin_mutex 其实主要的瓶颈在于 std::mutex 会切换到操作系统内核中去调度，非常低效。而 tbb::spin_mutex 则是基于硬件原子指令的，完全用户态的实现。区别： std::mutex 的陷入等待会让操作系统挂起该线程，以切换到另一个；而 tbb::spin_mutex 的陷入等待是通过不断地 while (locked); antaichi.pdf ← ？？？第 7 章： SPGrid 操作系统管理内存的最小单位：页（ 4KB ） • 当调用 malloc 时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经户写入的地址根本不是他 malloc 过的地址，那就说明他确实犯错了，就抛出段错误（ segmentation fault ）。 • 当一个尚且处于“不可用”的 malloc 过的区间被访问，操作系统不是把整个区间全部分配完毕，而是只把当前写入地址所在的页面（ 4KB 大小）给分配上。也就是说用户访问 a[0] 以后只分配了 4KB 的内存。等到用户访问了 a[1024] ，也就是触及了下一个页面，他才

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

个缓存行，而不是一个。 • 这样一次随机访问之后会伴随着 64 次顺序访问，能被 CPU 检测到，从而启动缓存行预取，避免了等待数据抵达前空转浪费时间。页对齐的重要性 • 为什么要 4KB ？原来现在操作系统管理内存是用分页（ page ），程序的内存是一页一页贴在地址空间中的，有些地方可能不可访问，或者还没有分配，则把这个页设为不可用状态，访问他就会出错，进入内核模式。 • 因此硬件出 int[n]{} ：后面加个花括号，就和 vector 一样，两次一样快了结论 • 原理，当调用 malloc 时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经 malloc 过的地址区间，则执行实际的内存分配，并标记该段 sizeof(int)) 、 new int[n] 不会初始化数组为 0 。 • 初始化数组时，内存被写入，所以操作系统这时候才开始实际分配内存。 • 刚才的案例里，不会初始化的 malloc ，第一次往里面赋值时，因为这时操作系统还没有给这个数组分配内存，所以会触发缺页中断，进入操作系统内核给数组分配内存，是内核执行内存分配的这个动作，花费了额外的时间。而第二次因为内存已经被分配上了，所以再

0 码力 | 147 页 | 18.88 MB | 1 年前
3
《深入浅出MFC》2/e

最基本观念讲起。深入浅出MFC 前半本都在描述(或说仿真) MFC 的内部技术，甚至挖出MFC 部份原始程序代码来说明，透过这本书来学MFC 会学得很扎实，不过自己要先对Windows 这个操作系统的运作方式有一程度的了解，不然会看不懂，以某方面来说，也不是初学者用的书。基本上侯俊杰写的书不论文笔或是内容都相当的好，相当有购买的价值，不过你别期望会是「初学用书」。刚学MFC 程序 framework 的包装是其四。初学MFC programming 时，我的脑袋犹如网目过大的筛子，什么东西都留不住；各个类别及其代表意义，过眼即忘。 8 初初接触MFC 时，我对Windows 操作系统以及SDK 程序设计技术的掌握，实已处在众人金字塔的顶端，困顿犹复如斯。实在是因为，对传统程序员而言，application framework 和 MFC 的运作机制太让人陌生了。目前市面上有不少讲解MFC 或VisualAge C++。你需要什么软硬件环境一套Windows 95（或Windows NT）操作系统当然是必须的，中英文皆可。此外，你需要一套Visual C++ 32 位版。目前的最新版本是Visual C++ 5.0，也是我使用的版本。深入淺出 MFC 30 硬件方面，只要能跑上述两种操作系统就算过关。内存（RAM）是影响运作速度的主因，多多益善。厂商宣称16MB RAM 是一个能够使你工作舒适的数字，但我因此怀疑

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

表示不下，则自动选择较大的类型标准化的类型： stdint.h • 而实际上，尽管主流操作系统上 int 都是 32 位的， C 语言标准并没有规定 int 就是 32 位的。 • int 甚至可以是 16 位的！只不过主流操作系统一致认为是 32 位的而已，并不是标准所保证的。 • 为了解决不同操作系统上对类型定义混乱的问题， C 语言标准引入了 stdint.h 这个头文件。 • 他里面包含一系列类型别名 (typedef) ，这些别名保证不论是什么操作系统什么架构，都是固定的大小，例如： • typedef char int8_t; • typedef short int16_t; • typedef int int32_t; • typedef long long int64_t; • 这样不论操作系统对类型的定义如何混乱，这些标准化的类型都是确定的大小。 • 这个直观的名字，他和 uintptr_t 等价。 • size_t 是标准库大量使用的用于表示大小的类型，例如 vector::size() 返回类型就是 size_t 。 • 在主流操作系统上， size_t 和 uintptr_t 完全等价，虽然标准并没有强制要求这一点。 • 此外还有有符号的 ssize_t 和 intptr_t 等价，不过他是 Unix/Linux 系统特有的，

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

过去的软件（例如 TBB ）要跨平台，只好 Makefile 的构建规则写一份， MSBuild 也写一份。 • 现在只需要写一次 CMakeLists.txt ，他会视不同的操作系统，生成不同构建系统的规则文件。 • 那个和操作系统绑定的构建系统（ make 、 MSBuild ）称为本地构建系统（ native buildsystem ）。 • 负责从 CMakeLists.txt 生成本地构建系统构建规则文件的，称为生成器（ scivision.dev/cmake-object-libraries/ 对象库类似于静态库，但不生成 .a 文件，只由 CMake 记住该库生成了哪些对象文件对象库是 CMake 自创的，绕开了编译器和操作系统的各种繁琐规则，保证了跨平台统一性。在自己的项目中，我推荐全部用对象库 (OBJECT) 替代静态库 (STATIC) 避免跨平台的麻烦。对象库仅仅作为组织代码的方式，而实际生成的可执行文件只有一个，减轻了部署的困难。，这是出于跨平台的考虑。请放心， CMake 会自动在调用 MSVC 的时候转换成 \ ，你可以放心的用 ${x}/bin 来实现和 Python 的 os.path.join(x, ‘bin’) 一样的效果。毕竟大多数操作系统都是 Unix-like 嘛……就 Windows 喜欢搞特殊。 cd /d C:\\Program\ Files\ $x86$\\Microsoft\ Visual\ Studio\\2019\\

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

今天，双核或者四核机器在多线程应用方面，其性能不见得的是单核机器的两倍或者四倍。这一问题一直伴随 CPU 发展至今。并发和并行的区别 • 运用多线程的方式和动机，一般分为两种。 • 并发：单核处理器，操作系统通过时间片调度算法，轮换着执行着不同的线程，看起来就好像是同时运行一样，其实每一时刻只有一个线程在运行。目的：异步地处理多个不同的任务，避免同步造成的阻塞。 • 并行：多核处理器，每个处理器执行一个线核心数量，让系统调度保证各个核心始终饱和 • 因此，最好不是按照图像大小均匀等分，而是按照工作量大小均匀等分。然而工作量大小我们没办法提前知道……怎么办？ • 最简单的办法：只需要让线程数量超过 CPU 核心数量，这时操作系统会自动启用时间片轮换调度，轮流执行每个线程。 • 比如这里分配了 16 个线程，但是只有 4 个处理器核心。那么就会先执行 1,2,3,4 号线程，一段时间后自动切换到 5,6,7,8 5.98 倍并行筛选 6 使用 tbb::spin_mutex 替代 std::mutex 。 spin_mutex （基于硬件原子指令）会让 CPU 陷入循环等待，而不像 mutex （操作系统提供调度）会让线程进入休眠状态的等待。若上锁的区域较小，可以用轻量级的 spin_mutex 。若上锁的区域很大，则循环等待只会浪费 CPU 时间。这里锁的区域是 std::copy ，比较大，所以

0 码力 | 116 页 | 15.85 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

，用于表示各种语言的字母、标点符号甚至表情符号等。 ‧ 布尔类型 bool ，用于表示“是”与“否”判断。基本数据类型以二进制的形式存储在计算机中。一个二进制位即为 1 比特。在绝大多数现代操作系统中，1 字节（byte）由 8 比特（bit）组成。基本数据类型的取值范围取决于其占用的空间大小。下面以 Java 为例。 ‧ 整数类型 byte 占用 1 字节 = 8 比特，可以表示 28 的字符串 str 。 ‧ C 和 C++ 未明确规定基本数据类型的大小，而因实现和平台各异。表 3‑1 遵循 LP64 数据模型，其用于包括 Linux 和 macOS 在内的 Unix 64 位操作系统。 ‧ 字符 char 的大小在 C 和 C++ 中为 1 字节，在大多数编程语言中取决于特定的字符编码方法，详见“字符编码”章节。 ‧ 即使表示布尔量仅需 1 位（0 或 1），它在内存中通常也存储为位的编码就足以表示所有的 Unicode 字符了。 ‧ C# 使用 UTF‑16 编码，主要是因为.NET 平台是由 Microsoft 设计的，而 Microsoft 的很多技术（包括 Windows 操作系统）都广泛使用 UTF‑16 编码。由于以上编程语言对字符数量的低估，它们不得不采取“代理对”的方式来表示超过 16 位长度的 Unicode 字符。这是一个不得已为之的无奈之举。一方面，包含代理对的字符串中，一个字符可能占用

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0 C++版

，用于表示各种语言的字母、标点符号甚至表情符号等。 ‧ 布尔类型 bool ，用于表示“是”与“否”判断。基本数据类型以二进制的形式存储在计算机中。一个二进制位即为 1 比特。在绝大多数现代操作系统中，1 字节（byte）由 8 比特（bit）组成。基本数据类型的取值范围取决于其占用的空间大小。下面以 Java 为例。 ‧ 整数类型 byte 占用 1 字节 = 8 比特，可以表示 28 的字符串 str 。 ‧ C 和 C++ 未明确规定基本数据类型的大小，而因实现和平台各异。表 3‑1 遵循 LP64 数据模型，其用于包括 Linux 和 macOS 在内的 Unix 64 位操作系统。 ‧ 字符 char 的大小在 C 和 C++ 中为 1 字节，在大多数编程语言中取决于特定的字符编码方法，详见“字符编码”章节。 ‧ 即使表示布尔量仅需 1 位（0 或 1），它在内存中通常也存储为位的编码就足以表示所有的 Unicode 字符了。 ‧ C# 使用 UTF‑16 编码，主要是因为.NET 平台是由 Microsoft 设计的，而 Microsoft 的很多技术（包括 Windows 操作系统）都广泛使用 UTF‑16 编码。由于以上编程语言对字符数量的低估，它们不得不采取“代理对”的方式来表示超过 16 位长度的 Unicode 字符。这是一个不得已为之的无奈之举。一方面，包含代理对的字符串中，一个字符可能占用

0 码力 | 378 页 | 17.59 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

，用于表示各种语言的字母、标点符号甚至表情符号等。 ‧ 布尔类型 bool ，用于表示“是”与“否”判断。基本数据类型以二进制的形式存储在计算机中。一个二进制位即为 1 比特。在绝大多数现代操作系统中，1 字节（byte）由 8 比特（bit）组成。基本数据类型的取值范围取决于其占用的空间大小。下面以 Java 为例。 ‧ 整数类型 byte 占用 1 字节 = 8 比特，可以表示 28 的字符串 str 。 ‧ C 和 C++ 未明确规定基本数据类型的大小，而因实现和平台各异。表 3‑1 遵循 LP64 数据模型，其用于包括 Linux 和 macOS 在内的 Unix 64 位操作系统。 ‧ 字符 char 的大小在 C 和 C++ 中为 1 字节，在大多数编程语言中取决于特定的字符编码方法，详见“字符编码”章节。 ‧ 即使表示布尔量仅需 1 位（0 或 1），它在内存中通常也存储为位的编码就足以表示所有的 Unicode 字符了。 ‧ C# 使用 UTF‑16 编码，主要是因为.NET 平台是由 Microsoft 设计的，而 Microsoft 的很多技术（包括 Windows 操作系统）都广泛使用 UTF‑16 编码。由于以上编程语言对字符数量的低估，它们不得不采取“代理对”的方式来表示超过 16 位长度的 Unicode 字符。这是一个不得已为之的无奈之举。一方面，包含代理对的字符串中，一个字符可能占用

0 码力 | 379 页 | 18.48 MB | 10 月前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

内部都有三个成员变量： ptr, len, capacity 。 • 前两个 [ptr, len] 其实就是表示实际有效范围（存储了字符的）的胖指针。 • 而 [ptr, capacity] 就是表示实际已分配内存（操作系统认为的）的胖指针。 • struct vector { • char *ptr; • size_t len; • size_t capacity; • }; • 在 GCC 的实现中，被换成了三个指针存储其他对象，不慎写入这个弱引用，就写入到其他对象里了）。 3. 星巴克把厕所这块地腾空后，从彼岸花丛中的死之结界里跳出一个外星人（操作系统）把这块“时空”给拆掉了，那么这时候张心欣来这里一拉，他就掉进“时空裂隙”里再也出不来了（释放后，这块内存被操作系统收回，不慎写入这个弱引用，就会触发 segfault ）。 • 其实 2 就是黑客破解一些 C 语言程序的思路，利用张心欣蒙眼的特性，利用他的粑粑，来

0 码力 | 162 页 | 40.20 MB | 1 年前
3

共 17 条前往

页

C++高性性能高性能并行编程优化课件 10 07 深入深入浅出MFC 12 11 06 Hello 算法 1.1 1.0 1.2 简体中文简体中文 15

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

《深入浅出MFC》2/e

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

Hello 算法 1.1.0 C++ 版

Hello 算法 1.0.0 C++版

Hello 算法 1.2.0 简体中文 C++ 版

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串