编译阶段 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

从汇编角度看编译器优化 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制新增的寄存器，给了汇编程序员更大的空间，降低了编译器处理寄存器翻车（ register spill ）的压力。 • 因此 64 位比 32 位机器相比，除了内存突破 4GB 限制外，也有一定性能优势。 8 位， 16 位， 32 位， 64 位版本 al, ax, eax, rax r15b, r15w, r15d, r15 AT&T 汇编语言 GCC 编译器所生成的汇编语言就属于这种返回值：通过

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

第一步是 cmake -B build ，称为配置阶段（ configure ），这时只检测环境并生成构建规则 • 会在 build 目录下生成本地构建系统能识别的项目文件（ Makefile 或是 .sln ） • 第二步是 cmake --build build ，称为构建阶段（ build ），这时才实际调用编译器来编译代码 • 在配置阶段可以通过 -D 设置缓存变量。第二次配置时，之前的发布模式，优化程度最高，性能最佳，但是编译比 Debug 慢 • MinSizeRel 最小体积发布，生成的文件比 Release 更小，不完全优化，减少二进制体积 • RelWithDebInfo 带调试信息发布，生成的文件比 Release 更大，因为带有调试的符号信息 • 默认情况下 CMAKE_BUILD_TYPE 为空字符串，这时相当于 Debug 。各种构建模式在编译器选项上的区别 • 在在 Release 模式下，追求的是程序的最佳性能表现，在此情况下，编译器会对程序做最大的代码优化以达到最快运行速度。另一方面，由于代码优化后不与源代码一致，此模式下一般会丢失大量的调试信息。 1. Debug: `-O0 -g` 2. Release: `-O3 -DNDEBUG` 3. MinSizeRel: `-Os -DNDEBUG` 4. RelWithDebInfo: `-O2

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）关于作者 • 我是 Taichi 编译器的贡献者之一（ https://github.com/taichi-dev/taichi ）关于作者（续） • 我是 Taichi Blend 的作者（ https://github.com 关于作者（再续） • 主导 Zeno 节点仿真框架的开发（ https://github.com/zenustech/zeno ）什么是编译器 • 编译器，是一个根据源代码生成机器码的程序。 • > g++ main.cpp -o a.out • 该命令会调用编译器程序 g++ ，让他读取 main.cpp 中的字符串（称为源码），并根据 C+ + 标准生成相应的机器指令码，输出到 a.out

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

/biology/include 这个头文件搜索路径。五、子项目的源文件 • 这里我们给 biology 批量添加了 src/*.cpp 下的全部源码文件。 • 明明只有 *.cpp 需要编译，为什么还添加了 include/*.h ？为了头文件也能被纳入 VS 的项目资源浏览器，方便编辑。 • 因为子项目的 CMakeLists.txt 里指定的路径都是相对路径，所以这里指定那么这个头文件是不需要导入 Animal.h 的，只需要一个前置声明 struct Animal ，只有实际调用了 Animal 成员函数的源文件需要导入 Animal.h 。 • 好处：加快编译速度，防止循环引用。十一、以项目名为名字空间（ namsepace ），避免符号冲突 • 在声明和定义外面都套一层名字空间，例如此处我的子项目名是 biology ，那我就 biology::Animal libQt5Core.so ）。 • 而是去找包配置文件（例如 Qt5Config.cmake ），这个配置文件里包含了包的具体信息，包括动态库文件的位置，头文件的目录，链接时需要开启的编译选项等等。而且某些库都具有多个子动态库，例如 Qt 就有 libQt5Core.so 、 libQt5Widgets.so 、 libQt5Network.so 。因此 CMake 要求所有第三方

0 码力 | 56 页 | 6.87 MB | 1 年前
3
Hello 算法 1.1.0 C++ 版

享你的见解，帮助他人进步。图 0‑7 评论区示例 0.2.5 算法学习路线从总体上看，我们可以将学习数据结构与算法的过程划分为三个阶段。 1. 阶段一：算法入门。我们需要熟悉各种数据结构的特点和用法，学习不同算法的原理、流程、用途和效率等方面的内容。 2. 阶段二：刷算法题。建议从热门题目开刷，先积累至少 100 道题目，熟悉主流的算法问题。初次刷题时，“知识遗忘”可能是一个挑战，但请刷题计划请见此 GitHub 仓库。 3. 阶段三：搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑8 所示，本书内容主要涵盖“阶段一”，旨在帮助你更高效地展开阶段二和阶段三的学习。第 0 章前言 hello‑algo 本书的主要受众是算法初学者。如果你已有一定基础，本书能帮助你系统回顾算法知识，书中源代码也可作为“刷题工具库”使用。 ‧ 书中内容主要包括复杂度分析、数据结构和算法三部分，涵盖了该领域的大部分主题。 ‧ 对于算法新手，在初学阶段阅读一本入门书至关重要，可以少走许多弯路。 ‧ 书中的动画图解通常用于介绍重点和难点知识。阅读本书时，应给予这些内容更多关注。 ‧ 实践乃学习编程之最佳途径。强烈建议运行源代码并亲自敲代码。 ‧

0 码力 | 379 页 | 18.47 MB | 1 年前
3
Hello 算法 1.0.0 C++版

享你的见解，帮助他人进步。图 0‑7 评论区示例 0.2.5 算法学习路线从总体上看，我们可以将学习数据结构与算法的过程划分为三个阶段。 1. 阶段一：算法入门。我们需要熟悉各种数据结构的特点和用法，学习不同算法的原理、流程、用途和效率等方面的内容。 2. 阶段二：刷算法题。建议从热门题目开刷，如“剑指 Offer”和“LeetCode Hot 100”，先积累至少 100 道题目，熟悉 3～5 轮的重复后，就能将其牢记在心。 3. 阶段三：搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑8 所示，本书内容主要涵盖“阶段一”，旨在帮助你更高效地展开阶段二和阶段三的学习。第 0 章前言 hello‑algo 本书的主要受众是算法初学者。如果你已有一定基础，本书能帮助你系统回顾算法知识，书中源代码也可作为“刷题工具库”使用。 ‧ 书中内容主要包括复杂度分析、数据结构和算法三部分，涵盖了该领域的大部分主题。 ‧ 对于算法新手，在初学阶段阅读一本入门书至关重要，可以少走许多弯路。 ‧ 书中的动画图解通常用于介绍重点和难点知识。阅读本书时，应给予这些内容更多关注。 ‧ 实践乃学习编程之最佳途径。强烈建议运行源代码并亲自敲代码。 ‧

0 码力 | 378 页 | 17.59 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 C++ 版

享你的见解，帮助他人进步。图 0‑7 评论区示例 0.2.5 算法学习路线从总体上看，我们可以将学习数据结构与算法的过程划分为三个阶段。 1. 阶段一：算法入门。我们需要熟悉各种数据结构的特点和用法，学习不同算法的原理、流程、用途和效率等方面的内容。 2. 阶段二：刷算法题。建议从热门题目开刷，先积累至少 100 道题目，熟悉主流的算法问题。初次刷题时，“知识遗忘”可能是一个挑战，但请刷题计划请见此 GitHub 仓库。 3. 阶段三：搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑8 所示，本书内容主要涵盖“阶段一”，旨在帮助你更高效地展开阶段二和阶段三的学习。第 0 章前言 www.hello‑algo 本书的主要受众是算法初学者。如果你已有一定基础，本书能帮助你系统回顾算法知识，书中源代码也可作为“刷题工具库”使用。 ‧ 书中内容主要包括复杂度分析、数据结构和算法三部分，涵盖了该领域的大部分主题。 ‧ 对于算法新手，在初学阶段阅读一本入门书至关重要，可以少走许多弯路。 ‧ 书中的动画图解通常用于介绍重点和难点知识。阅读本书时，应给予这些内容更多关注。 ‧ 实践乃学习编程之最佳途径。强烈建议运行源代码并亲自敲代码。 ‧

0 码力 | 379 页 | 18.48 MB | 10 月前
3
Hello 算法 1.0.0b5 C++版

到的问题，从而查漏补缺，激发更深入的思考。另一方面，期待你能慷慨地回答其他小伙伴的问题，分享您的见解，帮助他人进步。图 0‑6 评论区示例 0.2.5 算法学习路线从总体上看，我们可以将学习数据结构与算法的过程划分为三个阶段。 1. 算法入门。我们需要熟悉各种数据结构的特点和用法，学习不同算法的原理、流程、用途和效率等方面内容。 2. 刷算法题。建议从热门题目开刷，如剑指 Offer和LeetCode Hot 100，先积累至少断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑7 所示，本书内容主要涵盖“第一阶段”，旨在帮助你更高效地展开第二和第三阶段的学习。第 0 章前言 hello‑algo.com 8 图 0‑7 算法学习路线 0.3 小结 ‧ 本书的主要受众是算法初学者。如果已有一定基础，本书能帮助您系统回顾算法知识，书内源代码也可顾算法知识，书内源代码也可作为“刷题工具库”使用。 ‧ 书中内容主要包括复杂度分析、数据结构、算法三部分，涵盖了该领域的大部分主题。 ‧ 对于算法新手，在初学阶段阅读一本入门书籍至关重要，可以少走许多弯路。 ‧ 书内的动画和图解通常用于介绍重点和难点知识。阅读本书时，应给予这些内容更多关注。 ‧ 实践乃学习编程之最佳途径。强烈建议运行源代码并亲自敲打代码。 ‧ 本书网页版的每个章节都

0 码力 | 377 页 | 30.69 MB | 1 年前
3
面向亿行 C／C++ 代码的静态分析系统设计及实践-肖枭

能逐步形成好的编码规范和最佳实践检查代码风格问题挺准，但是我warning都不看，还看这个？大多数开发人员眼中的静态分析工具检查逻辑问题好，但耗时长还挺多误报，想用而不敢用  编译器里的Errors and warnings  自带静态分析的语言如Typescript, Rust  IDE里的智能提示  代码混淆和美化  代码交叉索引  Eclipse等IDE中的一键重构代码评审中的静态分析针对该提交代码片段自动触发分析发现问题，拒绝代码合并发起代码提交，如Pull Request 没有问题，允许合入开发者代码仓库静态代码评审的样子为何代码评审阶段？ 2K Bugs 12K Warnings 225K Code Smell “找到几万个问题，没法修” “这是以前的业务逻辑，不用修” “这别人写的代码，不关我事” 大量报告引起不适平均每次代码评审小于50分钟 • 需要编译C/C++代码 • 使用了定理证明器求解可行路径（精确，耗时） • 能跨函数分析 • 能处理指针使用有深度的代码分析器做到快速和准确用尽量少机器完成一天几千次分析每次分析10分钟要能结束控制误报并建立反馈和改进机制挑战：超大规模代码仓库项目平均40分钟单机编译时间项目平均编译代码量超百万行编译的价值 C/C++代码逻辑受编

0 码力 | 39 页 | 6.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

文件，和 .cpp 一样。 https://www.nvidia.cn/docs/IO/51635/NVIDIA_CUDA_Programming_Guide_1.1_chs.pdf CUDA 编译器兼容 C++17 • CUDA 的语法，基本完全兼容 C++ 。包括 C+ +17 新特性，都可以用。甚至可以把任何一个 C++ 项目的文件后缀名全部改成 .cu ，都能编译出来。 • 运行以后，就会在 GPU 上执行 printf 了。 • 这里的 kernel 函数在 GPU 上执行，称为核函数，用 __global__ 修饰的就是核函数。没有反应？同步一下！ • 然而如果直接编译运行刚刚那段代码，是不会打印出 Hello, world! 的。 • 这是因为 GPU 和 CPU 之间的通信，为了高效，是异步的。也就是 CPU 调用 kernel<<<1, 1>>>() 符号，和性能优化意义上的内联无关。 • 优化意义上的内联指把函数体直接放到调用者那里去。 • 因此 CUDA 编译器提供了一个“私货”关键字： __inline__ 来声明一个函数为内联。不论是 CPU 函数还是 GPU 都可以使用，只要你用的 CUDA 编译器。 GCC 编译器相应的私货则是 __attribute__((“inline”)) 。 • 注意声明为 __inline__

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 28 条前往

页

C++高性性能高性能并行编程优化课件 04 11 01 16 Hello 算法 1.1 1.0 1.2 简体中文简体中文 0b5 面向亿行代码静态分析系统设计实践肖枭 08

分类

语言

格式