合并引擎 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

艹标准委员会什么时候肯把他加入标准呢？看看人家 C 语言。编译器优化：合并写入将两个 int32 的写入合并为一个 int64 的写入。合并写入：不能跳跃但如果访问的两个元素地址间有跳跃，就不能合并了。第 4 章：矢量化更宽的合并写入：矢量化指令（ SIMD ）两个 int32 可以合并为一个 int64 四个 int32 可以合并为一个 __m128 xmm0 由 SSE 引入，是个指令：敢不敢再宽一点？为什么编译器没有用 256 位的 ymm0 ？因为他不敢保证运行这个程序的电脑支持 AVX 指令集…… 两个 int32 可以合并为一个 int64 四个 int32 可以合并为一个 __m128 八个 int32 可以合并为一个 __m256 让编译器自动检测当前硬件支持的指令集 -march=native 让编译器自动判断当前硬件支持的指令。老师的电脑支持 AVX

0 码力 | 108 页 | 9.47 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

Graph Analytics Source: KDnuggets 图技术全景图—— Graph Technology Landscape 2020 • 图数据库 • 图数据建模 • 图计算引擎 • 图数据集成 • 可视化分析 • 知识图谱解决方案 • 图查询语言 • 欺诈检测 • 网络安全分析 • 社交网络分析 • BI 工具 • 图分析工具集 • 图咨询服务 Source ，高性能图计算引擎，预置 20 余种图计算算法，可扩展的分析引擎支持更复杂的数据挖掘和机器学习场景 MPP Massively Parallel Processing 架构，大规模集群分布式存储及并行计算， Shared Nothing 模式支持存储计算分离高性能基于 Rust 开发的分布式存储引擎及图计算引擎，精细的内存管理设计，内置索引系统，支持毫秒级的并发查询响应速度 Language) ，类 SQL 的图查询语言，内置上百种分析函数，面向分析师友好，拥抱标准，基于 openCypher 向 ISO GQL 迈进实时大图支持万亿节点存储及流式计算引擎的结合，最新数据实时入库构图，为在线业务决策分析提供有力支撑 AtlasGraph 架构及实现新一代图技术应用特征简介 Takeaway AtlasGraph 架构概览存储层

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

SOA 会让 CPU 不得不同时维护很多条预取赛道（ mc_x, mc_y, mc_z ），当赛道多了以后每一条赛道的长度就变短了，从而能够周转的余地时间比较少，不利于延迟隐藏。而如果把这三条赛道合并成一条（ mc ），这样同样的经费（缓存容量）能铺出的赛道（预取）就更长，从而 CPU 有更长的周转时间来隐藏他内部计算的延迟。所以本案例中 AOS 比 SOA 好。 AOS 、 SOA 、 AOSOA 这就导致了虽然没有用到读取数据，但实际上缓存还是从内存读取了，从而浪费了 2 倍带宽。绕过缓存，直接写入： _mm_stream_si32 • 因此需要把 16 次 float 用 SIMD 指令合并成一次写入，且写入的地址要对齐到 64 字节，才能避免浪费读取的带宽。这样的条件实在有点苛刻，毕竟小彭老师的电脑还不支持 AVX512 。 • 可以用 _mm_stream_si32 指令代替直接赋值的写入的地址必须对齐到 16 字节，否则会产生段错误等异常。 stream 的限制：最好是连续的写入 • 需要注意， stream 系列指令写入的地址，必须是连续的，中间不能有跨步，否则无法合并写入，会产生有中间数据读的带宽。写入 1 比写入 0 更慢？ • 很简单，因为写入 0 被编译器自动优化成了 memset ，而 memset 内部利用了 stream 指令得以更快写入。

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

构建一个计数迭代器，他作为区间表示的就是整数的区间。合并多个迭代器为一个： zip_iterator • 可以用 thrust::make_zip_iterator(a, b) 把多个迭代器合并起来，相当于 Python 里的 zip 。 • 然后在函数体里通过 auto const &tup 捕获，并通过 thrust::get(tup) 获取这个合并迭代器的第 index 个元素……之所以他搞这么复杂，其实是因为的初衷是为了节省不必要的运算用的，然而对于 j < 32 以下那几个并没有节省运算（因为分支是按 32 个线程一组的），反而增加了分歧需要避免副作用的开销。因此可以把 j < 32 以下的那几个赋值合并为一个，这样反而快。使用网格跨步循环一次读取多个 arr 元素 • 可见共享内存中做求和开销还是有点大，之后那么多次共享内存的访问，前面却只有一次全局内存 arr 的访问，是不是太少了。 std::max 来防止访问越界。主要是 GPU 的 SIMT 处理这个比较擅长，不像 CPU 如果这样来钳制可能导致矢量化失败。减轻 membound ：一次代替四次迭代 • 和第七课提到的循环合并法局部迭代一样的方式。 • 不过这里改用了 GPU 的板块共享内存，线程之间自动并行，没有像 CPU 那样用循环。下一课主题？ GPU vs CPU • cudaStream 异步编程（流水线式并行）

0 码力 | 142 页 | 13.52 MB | 1 年前
3
谈谈MYSQL那点事

二进制层次的文件可以移植二进制层次的文件可以移植 (Linux (Linux   Windows) Windows) • 访问速度飞快，是所有访问速度飞快，是所有 MySQL MySQL 文件引擎中速度最快的文件引擎中速度最快的 • 不支持一些数据库特性，比如事务、外键约束等不支持一些数据库特性，比如事务、外键约束等 • Table level lock Table level lock 服务器，尽量在应用本身达到一个个 MySQL MySQL 最合理的使用最合理的使用  针对针对 MyISAM MyISAM 或或 InnoDB InnoDB 不同引擎进行不同定制不同引擎进行不同定制性配置性配置  针对不同的应用情况进行合理配置针对不同的应用情况进行合理配置  针对针对 my.cnf my.cnf 进行配置，后面设置是针对内存为进行配置，后面设置是针对内存为

0 码力 | 38 页 | 2.04 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

倍速度！ • 这就是量化数据类型的思想，把占空间大的数据类型转换成较小的（损失一定精度，换来性能）。 • 因此如果你的程序不需要那么高精度，可以考虑用小点的数据类型。 8 个 bit 合并进一个 int8_t ：每个占据 1/8 字节 • 考虑到我们的 i % 2 只可能是 0 和 1 ，也就是实际只占据了 1bit ，而如果用 int8_t 存储是 1 字节也就是 8bit bit 如何合并到一个 int8_t • 通过位运算： • bits |= 1 << n; • 可以设置 bits 的第 n 位为 1 。 • bits |= 0 << n; • 则没有任何改变。 std::vector ：标准库帮你实现好了 • 其实标准库的 vector 是一个特化的版本，他会自动像刚刚说的把值看做 1bit ，然后八个合并成一个 int8_t

0 码力 | 102 页 | 9.50 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

-> 调试（使用 kubectl/ 日志系统） 2. 测试流程合并到 develop -> GitLab-CI 自动构建打包 Chart （还是那堆复杂的脚本） -> -> Rancher 上手动替换 Helm Chart 版本 -> 自动化 / 手工测试 3. 上线流程合并 master -> GitLab-CI 自动构建打包 Chart -> 数千微服务已经上了 K8s ，没有业务边界，环境不稳定出了问题，所有人吃大锅饭 “ 开发无法本地联调自测，集成测试环境脏， ” 乱，差极不稳定，总被其他人干扰测试同时验证多个分支，集成合并冲突不断，自动化测试遥遥无期，测试全靠人工验证运维无脑排障、重启、删节点，沦为工具人…… “ “ ” ” 一系列问题（来自社区的声音）： 1. 业务边界清晰 2. 权限得到控制

0 码力 | 59 页 | 81.43 MB | 1 年前
3
CeresDB Rust 生产实践任春韶

CeresDB – 历程 2018.02 2018.10 2019.02 ~ 2020.11 2021.9  自研存储引擎  1.0.0 版本发布  查询性能优化  Prometheus 协议支持  基于 InfluxDB 单机引擎研发分布式方案  OpenTSDB 协议  内存时序数据库  存储计算分离架构  分级存储  永久代  CeresDB

0 码力 | 22 页 | 6.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

std::dynamic_pointer_cast 8. 运算符重载 9. 右值引用 && 10. std::shared_ptr 和 std::any • 只提供了关键字，详细信息请善用搜索引擎： bing.com 。（不要用 baidu.com ，那个是搜广告用的） • 如果感兴趣，我可以增添一节专门讲动态多态。回家作业！ • 已经发布到： https://github.com/parallel101/hw02 的拷贝构造函数能正常工作，且内存能够安全释放。 • 通过 pull request 提交你的作业，这样我可以通过 diff 页面清楚地看到你的改动。 • 什么事 pull request ？还是善用搜索引擎，这是作业的一部分（ x 感谢观看！ by 彭于斌（ github@archibate ）录播： https://space.bilibili.com/ 263032155 课件： https://github

0 码力 | 96 页 | 16.28 MB | 1 年前
3
基于 Rust Arrow Flight 的物联网和时序数据传输及转换工具霍琳贺

支持标准 SQL 写入，支持批量写入  支持 Schemaless 写入  支持从 Kafaka, MQTT, OPC, PI System 以及文件直接导入  数据源导入时，可定义规则引擎 TDengine: 与上下游应用的关系 TDengine = Time-Series Database + Caching + Data Subscription + Stream Processing

0 码力 | 29 页 | 2.26 MB | 1 年前
3

共 14 条前往

页

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

新一代分布式高性能图数据库的构建 - 沈游人

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

谈谈MYSQL那点事

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

Zadig 面向开发者的云原生 DevOps 平台

CeresDB Rust 生产实践任春韶

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

基于 Rust Arrow Flight 的物联网和时序数据传输及转换工具霍琳贺