持久层框架 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Rust 异步并发框架在移动端的应用 - 陈明煜

第三届中国 Rust 开发者大会 Rust 异步并发框架在移动端的应用陈明煜 chenmingyu4@huawei.com 华为公共开发部嵌入式软件能力中心本科就读加州大学圣地亚哥分校，毕业时长两年半， Rustacean 在华为目前正在使用 Rust 开发并行调度框架等模块。 Rust 异步并发框架在移动端的应用陈明煜 chenmingyu4@huawei.com Runtime 并发框架目录 Table of Contents #2 社区并发框架介绍以及与移动端的不适配性 Introduction to third party Runtime crates and their incompatibility with mobile environment Rust 异步机制 Asynchronous Rust 异步并发框架是许多大型应用、系统具备的底层能力。任务调度颗粒度更小，充分利用线程资源  更可控的线程数  单个任务资源占用：几十 KB -> 几百 Byte  任务切换时间 : 10 微秒 -> 100 纳秒 Rust 语言并没有提供异步并发框架，只提供异步所需的基本特性：  Future  async / await  Waker asyn c Future Waker poll Syntax sugar wake await

0 码力 | 25 页 | 1.64 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

同理还有三级指针 int*** ，四级指针 int**** ，以此类推。 • C 语言有 int* 这种指针类型， C++ 中还新增了 int& 这种引用类型。引用和指针是一样的，只是包装了一层语法糖，唯二的区别是：他不需要手动写 & 和 * 运算符；他的拷贝是导致他指向的值拷贝，而不是对门牌号的拷贝。 • 但是 C++ 的 int&& 并不是二级指针，而是右值引用，之后的课里会讲到。访问就会出错，如果没有出错还可能会访问到被其他变量覆盖的数据。解决：使用 malloc 或者 new 在堆上分配数组 • 可以改用 malloc 或者 new 在堆上分配内存，堆上内存是持久的，只要你不手动 free 他就一直在那里。 • 这样函数退出时不会释放数组，调用者就可以访问到正确的数据了。 • 当然这样需要调用者在退出时手动调用一下 free(a) ，因为堆内存不会自动释放。

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ，任务，一个负责下载，一个负责和用户交互。并在主线程中等待该任务组里的任务全部执行完毕。 • 区别在于，一个任务不一定对应一个线程，如果任务数量超过 CPU 最大的线程数，会由 TBB 在用户层负责调度任务运行在多个预先分配好的线程，而不是由操作系统负责调度线程运行在多个物理核心。封装好了： parallel_invoke 更好的例子第 1 章：并行循环时间复杂度（ time-efficiency ，需要做大量数学运算，因此瓶颈在 ALU 。 • 这里卖个关子，欲知后事如何，请待下集揭晓！更专业的性能测试框架： Google benchmark • 手动计算时间差有点太硬核了，而且只运行一次的结果可能不准确，最好是多次运行取平均值才行。 • 因此可以利用谷歌提供的这个框架。 • 只需将你要测试的代码放在他的 • for (auto _: bm) • 里面即可。他会自动决定要重复多少次，

0 码力 | 116 页 | 15.85 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

AtlasGraph 架构及实现新一代图技术应用特征简介 Takeaway AtlasGraph 架构概览存储层副本管理 CRAQ 图原生存储索引 LSM-Tree 容灾保障（ BR ）元数据层事务管理 MVOCC 计算层 Cypher AST 优化器图计算内存加速引擎服务接口 HTTP/RPC Spark Spark 连接器 Python UDF 执行器索引管理一致性存储 RAFT 分片管理元数据集群管理用户权限 GNN 应用层 Atlas 图平台 Atlas Studio Atlas Client 基础设施 Docker/K8S/VM X86/ARM - 基于 RUST 语言保证性能优势 - 分布式架构性能可线性扩展 - 针对大规模图优化的存算引擎和运行时损耗 01 完善的测试类型支持，包括单元测试、集成测试、基准测试等 02 03 和文档系统以及 CI/CD 工具的良好集成完整的断言系统异步协程零成本抽象强大的测试框架 REPL 命令行客户端 WebUI 面向分析师，提供图模型定义、数据管理、图查询分析、服务状态监控、用户管理能力免代码，可视化定义实体、边，设计图模型。【亮点】 • 支持模型导入导出

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ，关于作者（续） • 我是 Taichi Blend 的作者（ https://github.com/taichi-dev/taichi_blend ）关于作者（再续） • 主导 Zeno 节点仿真框架的开发（ https://github.com/zenustech/zeno ）什么是编译器 • 编译器，是一个根据源代码生成机器码的程序。 • > g++ main.cpp -o a.out 不需要，其实我们只需要定义 hellolib 的头文件搜索路径，引用他的可执行文件 CMake 会自动添加这个路径： • 这里用了 . 表示当前路径，因为子目录里的路径是相对路径，类似还有 .. 表示上一层目录。 • 此外，如果不希望让引用 hellolib 的可执行文件自动添加这个路径，把 PUBLIC 改成 PRIVATE 即可。这就是他们的用途：决定一个属性要不要在被 link 的时候传播。

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ，个对象一组打包成 SOA ，再用一个 n / 4 大小的数组存储为 AOS 。优点： SOA 便于 SIMD 优化； AOS 便于存储在传统容器； AOSOA 两者得兼！是王鑫磊的最爱。缺点：需要两层 for 循环，不利于随机访问；需要数组大小是 4 的整数倍，不过可以用边界特判法解决。测试一下加速了多少倍？优化前：优化后：测试结果 SOA + unroll 的方案，比优化前快了

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ，暴力解决：用 mutex 上锁 • 这样的确可以防止多个线程同时修改 counter 变量，从而不会冲突。 • 问题： mutex 太过重量级，他会让线程被挂起，从而需要通过系统调用，进入内核层，调度到其他线程执行，有很大的开销。 • 可我们只是想要修改一个小小的 int 变量而已，用昂贵的 mutex 严重影响了效率。建议用 atomic ：有专门的硬件指令加持 • 因此可以用更轻量级的

0 码力 | 79 页 | 14.11 MB | 1 年前
3
Rust分布式账务系统 - 胡宇

● 事务层与账户层分离 ● 独立水平扩展 ● CQRS ● Event Sourcing ● 针对读场景，写场景分别优化 ● 稳定的底层 API ● 灵活的顶层 API ● 树状结构 ● 聚合查询 ● 正确性：内存安全，线程安全 ● 可靠性： Raft 共识算法 raft-rs ● 高性能：关键路径无锁单线程顶层架构 ● Gateway 路由层 ○ 业务 Marker 事务层 ○ 使用业务 id 进行路由 ○ 执行转账计划 ○ 分发账户变动请求 ● Auticuro 账户层 ○ 使用账户 id 进行分区 ○ 执行账户变动请求 ○ 更新账户余额分布式账务系统性能展示 8 vCPUs * 5 节点 SSD 磁盘当 TPS = 10K 时，延迟 P99 < 20ms 分布式账务系统高吞吐，超低延迟账户层： Auticuro Auticuro 分布式账务系统账户层： Auticuro ● 1. 接受转账请求，转换成 events ○ Tokio + Tonic 分布式账务系统 1 2 3 4 ● 1. 接受转账请求，转换成 events ● 2. 将 events 送入 Raft 共识，等待 events 被多数节点保存 ○ 共识：基于 raft-rs 的可靠消息队列 ○ 存储： Rocksdb

0 码力 | 27 页 | 12.60 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

free(a[i]); • free(a); • ↑ 有 Java 病的人，才会这样分配二维数组，又低效，又不方便。 • 造成了 m + 1 次 malloc 调用，内存都是分散的，每次访问都要解开两层指针，非常低效。 • 分配 n*m 二维数组，正确的方式永远是： float *a = malloc(n * m * sizeof(float)); • 也不要用 vector> 序的循环，其 X 是外层循环体，在先后执行的时间上是不连续的。 • 从而在硬件看来，以 YX 序遍历，就和顺序访问一维数组没什么两样，从而缓存预取能正常运作，甚至编译器可以优化成一个 nx*ny 的一层循环。 • 而如果以 XY 序遍历，就像跳跃着访问一样，不连续，缓存得不到利用，每次读取只用了其中 4 字节，浪费了缓存行剩下的 60 字节，非常低效。 • 结论： • 对于 YX 序（列主序，造成的，一部分是因为跳跃的访存让 CPU 没有办法自动预取造成的。封装成 ndarray 类 ndarray.h ，同学们可以在作业或是自己的项目里随意使用。不要再用 Java 式的二层三层指针了，用 ndarray<2, float> 声明一个二维浮点数组， ndarray<3, int> 声明一个三维整型数组。这里的 ndarray 通过 a(x, y) 来索引，看起来像

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

个元素的平衡二叉树，深度只有 ceil(log(n+1)) 层。也就是说我们最多只需要 ceil(log(n+1)) 次大小判断，就能找到任意一个数！因为算法复杂度可以忽略 +1 -1 这些小东西，所以 set 查找的最坏复杂度是 O(logn) ！ 2 1 4 5 8 7 4 要找的数 ceil(log(6+1)) = 3 层 4 < ? 从 set 到 map ：无非是外挂了个值类型 3 次就找到了目标。这还是最坏的情况，最好只需要 1 次就够了。 • 最坏的情况需要判断多少次？最坏不会超过树的深度，而一棵有着 n 个元素的平衡二叉树，深度只有 ceil(log(n+1)) 层。也就是说我们最多只需要 ceil(log(n+1)) 次大小判断，就能找到任意一个数！因为算法复杂度可以忽略 +1 -1 这些小东西，所以 set 查找的最坏复杂度是 O(1) ！ 4 要找的数

0 码力 | 90 页 | 8.76 MB | 1 年前
3

共 23 条前往

页

陈明煜 2023RustChinaConf C++高性性能高性能并行编程优化课件 12 06 游人 RustCC AtlasGraph 01 04 05 胡宇 rust 分布布式分布式账务系统 07 17

分类

语言

格式

Rust 异步并发框架在移动端的应用 - 陈明煜

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

新一代分布式高性能图数据库的构建 - 沈游人

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

Rust分布式账务系统 - 胡宇

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器