分布式缓存 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Rust分布式账务系统 - 胡宇

第三届中国 Rust 开发者大会 Rust 构建分布式账务系统在 Fintech 公司落地 Rust 项目的经验分享 Airwalle x 胡宇 Airwallex 我们是一家跨境支付领域的 Fintech 独角兽关于我们 E2 轮 Fintech 独角兽，业务遍布全球关于我们： Airwallex 墨尔本新加坡伦敦深圳香港北京旧金山上海东京提供高效，低成本的数字银行服务关于我们： Airwallex 从设计架构到实现细节项目介绍分布式账务系统 Fintech 互联网正确性 bug= 资损 bug 不可怕，快速迭代可靠性丢数据 = 资损允许数据丢失性能超低延迟 + 高吞吐超高吞吐交易日志审计，监管调试使用分布式账务系统 Fintech 领域中的软件与互联网软件的不同需求分析支付处理： ● 转账高可用：在部分节点失效的情况下，依旧可以提供正确的服务超低延迟：实时交易，超低响应延迟水平扩展性：利用分布式事务实现钱包集群的的水平扩展，应对高达 100 万 TPS 的流量可演化性：业务逻辑与底层 API 解耦，当业务发生改变时，底层 API 不用改变分布式账务系统设计理念 - Rust 是我们可靠的基石分布式账务系统存算分离 API 解耦读写分离层级账号 Rust ● 事务层与账户层分

0 码力 | 27 页 | 12.60 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

新一代分布式高性能图数据库的构建北京海致星图科技有限公司 2023-06-18 沈游人数据库与大数据专场海致简介—企业级知识图谱开创者专业顶尖技术团队支撑超 700 人团队，其中 80% 为技术人员，创始团队在完成全球第一个中文知识图谱网站研发后，探索知识图谱技术在企业领域的应用。 2021 年，海致院士专家工作站成立，站内清华大学计算机博士生占比达 90% 以上。实时风控对图库的性能挑战（ OLTP 毫秒级响应） • 海致图平台产品服务于金融、政府行业有大量业务经验积累（接近客户需求） • 现有开源产品无法满足要求（受限于基础架构设计，优化性能有限）新一代分布式图数据库需具备的特性特性信雅达 • 高可用 • 一致性（事务） • 高性能 • 低资源消耗 • 易用 • 功能丰富 AtlasGraph 关键特性云原生 Cloud-Native ，可扩展的分析引擎支持更复杂的数据挖掘和机器学习场景 MPP Massively Parallel Processing 架构，大规模集群分布式存储及并行计算， Shared Nothing 模式支持存储计算分离高性能基于 Rust 开发的分布式存储引擎及图计算引擎，精细的内存管理设计，内置索引系统，支持毫秒级的并发查询响应速度易用 AQL(Atlas Graph Query

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

常见操作所花费的时间 • 图中加法 (add) 和乘法 (mul) 都指的整数。 • 区别是浮点的乘法和加法基本是一样速度。 • L1/2/3 read 和 Main RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 相差不多，符合我的预期。第 2 章：缓存与局域性针对不同数据量大小的带宽测试 • 我们试试看 a 不同的大小，对带宽有什么影响。针对不同数据量大小的带宽测试（续） • 可见数据量较小时，实际带宽甚至超过了理论带宽极限 42672 MB/s ！ • 而数据量足够大时，才回落到正常的带宽。 • 这是为什么？ CPU 内部的高速缓存 • 原来 CPU 的厂商早就意识到了内存延迟高，读写效率低器——虽然小，但是读写速度却特别快。这片小而快的存储器称为缓存（ cache ）。 • 当 CPU 访问某个地址时，会先查找缓存中是否有对应的数据。如果没有，则从内存中读取，并存储到缓存中；如果有，则直接使用缓存中的数据。 • 这样一来，访问的数据量比较小时，就可以自动预先加载到这个更高效的缓存里，然后再开始做运算，从而避免从外部内存读写的超高延迟。缓存的分级结构查看高速缓存大小： lscpu • 可以看到我们

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

里构建，即： make -C build -j4 // 调用本地的构建系统执行 install 这个目标，即安装 -D 选项：指定配置变量（又称缓存变量） • 可见 CMake 项目的构建分为两步： • 第一步是 cmake -B build ，称为配置阶段（ configure ），这时只检测环境并生成构建规则 • 会在 build 目录下生成本地构建系统能识别的项目文件（ Makefile 或是 .sln ） • 第二步是 cmake --build build ，称为构建阶段（ build ），这时才实际调用编译器来编译代码 • 在配置阶段可以通过 -D 设置缓存变量。第二次配置时，之前的 -D 添加仍然会被保留。 • cmake -B build -DCMAKE_INSTALL_PREFIX=/opt/openvdb-8.0 • ↑ 设置安装路径为 /opt/openvdb-8 -DCMAKE_BUILD_TYPE=Release • ↑ 设置构建模式为发布模式（开启全部优化） • cmake -B build ← 第二次配置时没有 -D 参数，但是之前的 -D 设置的变量都会被保留 • （此时缓存里仍有你之前定义的 CMAKE_BUILD_TYPE 和 CMAKE_INSTALL_PREFIX ） -G 选项：指定要用的生成器 • 众所周知， CMake 是一个跨平台的构建系统，可以从 CMakeLists

0 码力 | 166 页 | 6.54 MB | 1 年前
3
CeresDB Rust 生产实践任春韶

协议支持  基于 InfluxDB 单机引擎研发分布式方案  OpenTSDB 协议  内存时序数据库  存储计算分离架构  分级存储  永久代  CeresDB 开源 2022.6 2023.3  开源版本 CeresDB 开始研发 2023.6  1.2.2 版本发布  优化了写入性能  优化了分布式方案 CeresDB – 目标解决时间线高基数问题解决时间线高基数问题 • 能高效处理好 APM 型时序数据 • 同时能高效处理好高基数时间线场景提供原生分布式方案 • 大规模部署 • 提供高可用、高可靠的服务 • 支持水平扩容 • 支持高效的分布式查询 - Tokio Preemption - Future Cancellation Rust 生产实践生产实践 – Tokio 为什么使用 Tokio ？ 1. 业界使用最广泛，测试齐全。

0 码力 | 22 页 | 6.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现显然不是。甚至在两个处理器上同时运行两个线程也不见得可以获得两倍的性能。相似的，大多数多线程的应用不会比双核处理器的两倍快。他们应该比单核处理器运行的快，但是性能毕竟不是线性增长。 • 为什么无法做到呢？首先，为了保证缓存一致性以及其他握手协议需要运行时间开销。在今天，双核或者四核机器在多线程应用方面，其性能不见得的是单核机器的两倍或者四倍。这一问题一直伴随 CPU 发展至今。并发和并行的区别 • 运用多线程的方式和动机，一般分为两种。 grain ）将矩阵进行分块。块内部小区域按照常规的两层循环访问以便矢量化，块外部大区域则以类似 Z 字型的曲线遍历，这样能保证每次访问的数据在地址上比较靠近，并且都是最近访问过的，从而已经在缓存里可以直接读写，避免了从主内存读写的超高延迟。 • 下次课会进一步深入探讨访存优化，详细剖析这个案例，那么下周六 14 点敬请期待。第 6 章：并发容器 std::vector 扩容时会移动元素

0 码力 | 116 页 | 15.85 MB | 1 年前
3
谈谈MYSQL那点事

Rows level lock , 读写性能都非常优秀读写性能都非常优秀 • 能够承载大数据量的存储和访问能够承载大数据量的存储和访问 • 拥有自己独立的缓冲池，能够缓存数据和索引拥有自己独立的缓冲池，能够缓存数据和索引 MySQL 架构设计—应用架构强一致性对读一致性的权衡，如果是对读写实时性要求非常高的话，就将读写都放在 M1 上面， M2 只是作为 standby 。访问频繁，考虑访问频繁，考虑 Master/Slave Master/Slave 读写分离；数据库分表、数据库切片（分读写分离；数据库分表、数据库切片（分布式），也考虑使用相应缓存服务帮助布式），也考虑使用相应缓存服务帮助 MySQL MySQL 缓解访问缓解访问压力压力系统优化系统优化  配置合理的配置合理的 MySQL MySQL 服务器，尽量在应用本身达到一服务器，尽量在应用本身达到一 1024 MySQL 服务器同时处理的数据库连接的最大数量 query_cache_size 0 ( 不打开） 128M 查询缓存区的最大长度，按照当前需求，一倍一倍增加，本选项比较重要 sort_buffer_size 512K 128M 每个线程的排序缓存大小，一般按照内存可以设置为 2M 以上，推荐是 16M ，该选项对排序 order by ， group by 起作用 record_buffer

0 码力 | 38 页 | 2.04 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

，那就没办法全部装在高效的寄存器仓库里，而是要把一部分“打翻”到一级缓存中，这时对这些寄存器读写的速度就和一级缓存一样，相对而言低效了。若一级缓存还装不下，那会打翻到所有 SM 共用的二级缓存。 • 此外，如果在线程局部分配一个数组，并通过动态下标访问（例如遍历 BVH 时用到的模拟栈），那无论如何都是会打翻到一级缓存的，因为寄存器不能动态寻址。 • 对于 Fermi 架构来说，每个线程最多可以有经典案例：矩阵转置 • 为什么需要多维？直接手动求模运算获取 x ， y 坐标不行吗？看右边这个例子。 • 回顾一下：我们第七课讲过， CPU 上的并行 for ，通常会做循环分块提升缓存局域性。但是如果我们是传统的两层的 for 循环就低效了，对于矩阵转置这种需要 y 方向非连续访问而言，循环分块会带来很大提升。 • 所以该怎么做才能让 GPU 也循环分块呢？经典案例：矩阵转置 • 很简单，只需要使用二维的 blockDim 和 gridDim ，然后在核函数里分别计算 x 和 y 的扁平化线程编号就行了！他会自动变成循环分块一样的效果，有利于缓存局域性。 • 顺便一提 Taichi 没有用多维的 blockDim ，他统一用一维的网格跨步循环来扁平化高维循环，这就是为什么我们用 Taichi 的 for 处理二维、三维数据的

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

更高效。其实 sizeof(std::mutex) = 40 字节，而 sizeof(tbb::spin_mutex) = 1 字节…… 小彭老师解决：访问者模式把写入过的块地址缓存起来，可以避免多次访问全局表的开销。缓存在访问者 (accessor) 的成员 map 里。访问者对象被我用 OpenMP 标记为 firstprivate ，意味着这个 map 是线程局部的，因此对他的访问不需要加锁， parallel for collapse(2) 遍历二维区间。把 func 捕获为 firstprivate ，从而支持用 lambda 捕获的访问者模式。实现访问者模式 • 额，总之就是每一层都有一个缓存。第 5 章：量化整型使用 int ：每个占据 4 字节 • 记得我第七课说过，一个简单的循环体往往会导致内存成为瓶颈（ memory- bound ）。 • 右边就是一个很好的例子。足稀疏数据结构“按需分配”的需求。且由于分页是硬件自动来做的，比我们软件哈希和指针数组的稀疏更高效，写起来就和普通的二维数组没什么两样，就好像顺序访问。也用不着什么访问者缓存坐标和块指针了，硬件的 TLB 就是我们的访问者缓存，而且超快不需要用户自己写。 • 垃圾回收可用 madvice 提前释放一段页面。 • 除此之外， mmap 还有一个好处，他会保证其内存（被读取访问时）是零初始化的。

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现通常认为利用同时处理 4 个 float 的 SIMD 指令可以加速 4 倍。但是如果你的算法不适合 SIMD ，则可能加速达不到 4 倍；也有因为 SIMD 让访问内存更有规律，节约了指令解码和指令缓存的压力等原因，出现加速超过 4 倍的情况。第 1 章：化简编译器优化：代数化简编译器优化：常量折叠编译器优化：举个例子编译器优化：我毕竟不是万能的结论：尽量避免代码复杂化，避免使用会造编译器，可以用 #pragma GCC unroll 4 表示把循环体展开为 4 个相当于：对小的循环体进行 unroll 可能是划算的，但最好不要 unroll 大的循环体，否则会造成指令缓存的压力反而变慢！重复了四次不建议手动这样写，会妨碍编译器的 SIMD 矢量化。第 6 章：结构体两个 float ：对齐到 8 字节成功 SIMD 矢量化！三个 float

0 码力 | 108 页 | 9.47 MB | 1 年前
3

共 18 条前往

页

分类

语言

格式

Rust分布式账务系统 - 胡宇

新一代分布式高性能图数据库的构建 - 沈游人

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

CeresDB Rust 生产实践任春韶

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

谈谈MYSQL那点事

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化