Goroutine数量过高 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

想一想，为什么会是这个结果，然后在作业的 PR 描述中和老师分享你的思考那改用 array 试试？那改用手写的 reduce ？那改小到 10 ？成功了！结论：代码过于复杂，涉及的语句数量过多时，编译器会放弃优化！简单的代码，比什么优化手段都强。 constexpr ：强迫编译器在编译期求值结论：如果发现编译器放弃了自动优化，可以用 constexpr 函数迫使编译器进行常量折叠！：也有指针别名问题 __restrict ：能否用于 std::vector ？没用！解决方案： pragma omp simd 或 pragma GCC ivdep C/C++ 的缺点：指针的自由度过高，允许多个 immutable reference 指向同一个对象，而 Rust 从语法层面禁止，从而让编译器放心大胆优化。为什么标准委员会不改进一下？因为一旦放弃兼容，就等于抛弃所有历史遗产的全新语言，

0 码力 | 108 页 | 9.47 MB | 1 年前
3
KubeCon2020/大型Kubernetes集群的资源编排优化

one of the essential functions on the cloud, but the HPA Controller of native K8S use only one goroutine to handle the scaling of all businesses in the cluster, and personalization configuration is

0 码力 | 27 页 | 3.91 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

<<<1, 3>>> 试试看。你会看到 Hello, world! 打印了三遍！ • 原来，三重尖括号里的第二个参数决定着启动 kernel 时所用 GPU 的线程数量。 • GPU 是为并行而生的，可以开启很大数量的线程，用于处理大吞吐量的数据。获取线程编号 • 可以通过 threadIdx.x 获取当前线程的编号，我们打印一下试试看。 • 这是 CUDA 中的特殊变量之一，只有在可以看到线程编号从 0 开始计数，打印出了 0 ， 1 ， 2 。这也是我们指定了线程数量为 3 的缘故。 • 等等，为什么后面有个 .x ？稍后再说明。获取线程数量 • 还可以用 blockDim.x 获取当前线程数量，也就是我们在尖括号里指定的 3 。 • 可是为什么叫 blockDim ？我觉得应该叫 threadNum 才比较合理？ • 小彭老师也这么觉得，可能是历史遗留下就是为什么刚刚获取线程数量的变量用的是 blockDim ，实际上 blockDim 的含义是每个板块有多少个线程。 • 要指定板块的数量，只需调节三重尖括号里第一个参数即可。我们这里调成 2 。总之： • <<< 板块数量，每个板块中的线程数量 >>> • 可以看到这里我们启动了两个板块，各有 3 个线程，都打印了一样的数据。获取板块编号和数量 • 板块的编号可以用

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

初我们就应该研发出 10GHz 的芯片。 • 可为何直到今天也生产不出 10GHz 的芯片？ • 结论：狭义的摩尔定律没有失效。但晶体管数量的增加，不再用于继续提升单核频率，转而用于增加核心数量。单核性能不再指数增长！你醒啦？免费午餐结束了！指望靠单核性能的增长带来程序性能提升的时代一去不复返了，现在要我们动动手为多核优化一下老的程序，才能搭上摩尔定律的顺风车。神话与现实：用一个任务组 tbb::task_group 启动多个任务，一个负责下载，一个负责和用户交互。并在主线程中等待该任务组里的任务全部执行完毕。 • 区别在于，一个任务不一定对应一个线程，如果任务数量超过 CPU 最大的线程数，会由 TBB 在用户层负责调度任务运行在多个预先分配好的线程，而不是由操作系统负责调度线程运行在多个物理核心。封装好了： parallel_invoke 时间复杂度 * 核心数量 • 1 个核心工作一小时， 4 个核心工作一小时。时间复杂度一样，而后者工作复杂度更高。 • 1 个核心工作一小时， 4 个核心工作 1/4 小时。工作复杂度一样，而后者时间复杂度更低。 • 并行的主要目的是降低时间复杂度，工作复杂度通常是不变的。甚至有牺牲工作复杂度换取时间复杂度的情形。 • 并行算法的复杂度取决于数据量 n ，还取决于线程数量 c ，比如 O(n/c)

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

• 加速比： 1.36 倍 • 应该达到 6 倍（物理核心数量）才算理想加速比。加速曲线 • funcA 用了 2 核就饱和。 • funcB 用了 4 核才饱和。 • funcC 用了 6 核才饱和。 • 结论：要想利用全部 CPU 核心，避免 mem-bound ，需要 func 里有足够的计算量。 • 当核心数量越多， CPU 计算能力越强，相对之下来不及从内存读写数据，从而越容内存信息查看工具： dmidecode • 可以看到小彭老师电脑上插了 2 块内存，频率都是 2667 MHz ，数据的宽度是 64 位（ 8 字节）。 • 理论极限带宽 = 频率 * 宽度 * 数量 2667*16*2=42672 MB/s • 那么，频率相同的情况下，可以考虑插两块 8GB 的内存，比插一块 16GB 的内存更快，不过价格可能还是翻倍的。 • 系统会自动在两者之间均匀分配内存，保证读写均匀分配字节的跨步访问，都会导致数据全部被读取出来。而超过 64 字节的跨步，则中间的缓存行没有被读取，从而变快了。缓存行决定数据的粒度 • 结论：访问内存的用时，和访问的字节数量无关，和访问的每个字节所在的缓存行数量有关。 • 可见，能否很好的利用缓存，和程序访问内存的空间局域性有关。缓存行决定数据的粒度（续） • 所以我们设计数据结构时，应该把数据存储的尽可能紧凑，不要松散排列。最好每个缓存行里要么有数据，要么没数据，避

0 码力 | 147 页 | 18.88 MB | 1 年前
3
谈谈MYSQL那点事

MySQL 配置原则配置原则服务优化服务优化公共选项公共选项选项缺省值推荐值说明 max_connections 100 1024 MySQL 服务器同时处理的数据库连接的最大数量 query_cache_size 0 ( 不打开） 128M 查询缓存区的最大长度，按照当前需求，一倍一倍增加，本选项比较重要 sort_buffer_size 512K 128M 每个线程的排序缓存大小，一般按照内存可 128K 64M 每个进行一个顺序扫描的线程为其扫描的每张表分配这个大小的一个缓冲区，可以设置为 2M 以上 table_cache 64 1024 为所有线程打开表的数量。增加该值能增加 mysqld 要求的文件描述符的数量。 MySQL 对每个唯一打开的表需要 2 个文件描述符。服务优化服务优化 MyISAM MyISAM 选项选项选项缺省值推荐值说明 key_buffer_size

0 码力 | 38 页 | 2.04 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

Compressed Row Storage ） http://www.netlib.org/linalg/html_templates/node91.html 第 1 章：稀疏网格稠密网格计算粒子经过的格点数量改用更小的 char 存储只用一个 bit 存储，一个 char 可以存储 8 个 bit 用 map 来存储读取：如果不存在，则读到 0 写入：如果不存在，则创建该表项用 unordered_map unordered_map 基于哈希表，不保证顺序但更高效，需要键值能被哈希，复杂度 O(1) 用 unordered_map 按 16x16 分块存储分块能减少 unordered_map 中存储的表项数量，从而减轻哈希的压力。但意味着键值在空间上需要具有一定的局域性，否则会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域）。 double: float: http://c.biancheng.net/view/314.html 以求最大值为案例用定点数来表示 • 刚刚说到浮点数的特性是有指数位，可表示不同数量级上的数。 • 比如 123.4 实际上是 1.234 * 10^2 ，也就是他实际存储的是 234 （底数）和 2 （指数）。 • 而定点数则没有指数位。而是规定好一个固定的系数，比如 100

0 码力 | 102 页 | 9.50 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

深度适应客户的系统环境和算法需求 • 机器数量有限，通常小于 10 • 网络带宽不高（千兆、万兆以太网） • 需要支持各种不同类型的图计算算法  双重执行模式 • 单机和分布式两套计算系统，在不同的使用环境中都能达到最佳性能  针对常用算法逐个设计优化方案 • 对于常用算法，跳过固定的编程模型，分别设计最佳的计算方案 • 例如我们自研的 node2vec 采样算法比现有技术快了 1 个数量级海致图计算平台特点

0 码力 | 38 页 | 24.68 MB | 1 年前
3
Rust与算法 - 谢波

抽象数据类型什么是抽象数据类型？为什么需要抽象数据类型？时空复杂度 • 时间复杂度更被看重 • 时间和空间复杂度不是对立的，可以协同时间和空间复杂度复杂度计算 • 大Ｏ标记法（数量级近似） • 用 AI 来估计算步骤、算存储 Rust 基本数据结构复杂度线性数据结构非线性数据结构总体来看，时间复杂度没有超过 O(n) 的！ Rust 实现数据结构 • 栈

0 码力 | 28 页 | 3.52 MB | 1 年前
3
Zadig 产品使用手册

服务的调试——进入容器调试 Sprint 发布测试验证变更发布产品规划需求开发服务的调试——临时替换镜像 Sprint 发布测试验证变更发布产品规划需求开发服务的调试——调整副本数量 / 重启实例 Sprint 发布测试验证变更发布产品规划测试集管理—— GitLab 仓库管理支持冒烟测试 / 接口测试 /UI 测试 / 场景测试 / 性能测试等 1. 本地编写测试脚本并针对

0 码力 | 52 页 | 22.95 MB | 1 年前
3

共 13 条前往

页

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

KubeCon2020/大型Kubernetes集群的资源编排优化

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

谈谈MYSQL那点事

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

新一代分布式高性能图数据库的构建 - 沈游人

Rust与算法 - 谢波

Zadig 产品使用手册