多维时间序列预测 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Borsh 安全高效的二进制序列化

第三届中国 Rust 开发者大会安全高效的二进制序列化 Daniel Wang @ NEAR Borsh • 运行、编码效率 • 确定性 • 跨平台兼容性二进制序列化的问题 Binary Object Representation Serializer for Hashing • 字节级别确定性 • 执行速度快 Borsh • 轻量级 • 每一个对象与其二进制表示之间都存在一个双射映射中， borsh 并没有使用 serde • 全部逻辑原生实现 • 序列化、反序列化速度大幅领先其他解决方案执行速度执行速度 benchmark 执行速度 benchmark 执行速度 benchmark 执行速度 benchmark • 编译后的体积更小 • borsh 序列化后的二进制更精简轻量级序列化结果体积对比 Borsh 基本用法 Case Study NEAR NEAR 智能合约 Case Study Solana 智能合约 Case Study • non self-describing • 保证序列化后的二进制唯一性和确定性 • 主要序列化规则 Borsh 规范 • 整数采用低字节序（ little endian) 存储 • 对于动态长度的集合，先用一个 u32 存储集合 size • 对于原本无序的集合（如 hashmap ），存储时使用

0 码力 | 21 页 | 3.35 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

4 核且矢量化成功： 1 次浮点读写 ≈ 128 次浮点加法常见操作所花费的时间 • 图中加法 (add) 和乘法 (mul) 都指的整数。 • 区别是浮点的乘法和加法基本是一样速度。 • L1/2/3 read 和 Main RAM read 的时间指的是读一个缓存行（ 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一点内存的延迟了，但在 6 个物理核心上并行加速后，还是变成 mem-bound 了。 • 加速比： 1.36 倍 • 应该达到 6 倍（物理核心数量）才算理想加速比。加速曲线 • 读取。这会导致 CPU 预取机制失效，无法预测下一次要读哪里，等发现跳跃时已经来不及了，从而计算的延迟无法隐藏。如果每个属性都要访问到，那还是 AOS 比较好（ AOSOA 也不赖哦）这是因为使用 SOA 会让 CPU 不得不同时维护很多条预取赛道（ mc_x, mc_y, mc_z ），当赛道多了以后每一条赛道的长度就变短了，从而能够周转的余地时间比较少，不利于延迟隐藏。而如果把这三条赛道合并成一条（

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

memory CUDA 多维数组：封装 • cudaMalloc3DArray 用于分配一个三维数组。各维度上的大小通过 cudaExtent 指定，方便起见我们的 C++ 封装类用了 uint3 表示大小。 • GPU 的多维数组有特殊的数据排布来保障访存的高效，和我们 CPU 那样简单地行主序或列主序（如 a[x + nx * y] ）的多维数组不一样。 • 随后可用 cudaMemcpy3D 在 GPU 的三维数组和 CPU 的三维数组之间拷贝数据。 CUDA 表面对象：封装 • 要访问一个多维数组，必须先创建一个表面对象（ cudaSurfaceObject_t ）。 • 考虑到多维数组始终是需要通过表面对象来访问的，这里我们让表面对象继承自多维数组。 • 在核函数中可以用 surf3Dread 和 surf3Dwrite 来读写表面对象中的元素， x,y clrNext 的同时读取 clr 没有冲突，写入完毕后对调 clrNext 和 clr 。投影部分投影部分 • 我们要模拟的流体是不可压缩的，因此有着无散度的特点： div v = 0 • 上式对时间求导，即 d(div v)/dt = div dv/dt = 0 ；带入 dv/dt = -p 得 div grad p = 0 。 • 因此为了模拟不可压缩流我们要求保证 p 满足 div grad

0 码力 | 58 页 | 14.90 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

图查询及其应用场景图查询 • 使用图数据库的查询语言进行点边的关联查询，可以快速完成传统数据库难以完成的多度点边关联当前图的典型应用场景路径识别群体挖掘节点识别相似节点链接预测连接强度一致行动人同事关系实际控制人可能认识的人上下游同爱好的人亲属关系 …  人与人、企业与企业、企业与人之间的复杂、潜在关系推导和挖掘  为已有的分析模型增加“关系特征”维 • 通过图嵌入将客户关系表示为低维向量，可以结合其他客户行为特征进行机器学习训练图卷积神经网络 • 对图结构数据进行卷积计算 • 通过已有的企业数据，通过 GCN 进行半监督学习和分类，预测企业的违约概率传统的关系型数据库的存储方式丢失了事物之间的关系信息 Relational Table Real World Multi-Context is Preserved with Graph IO 密集型，且访问的数据随机又分散，拥有内存缓存能起到很好的加速效果 • 要想让内存缓存发挥最大的作用，就要能在有限的内存中存下尽量多的图数据 • 例如，对于属性的存储，可以通过自行序列化 / 反序列化大幅节省内存 • 而自定义存储格式往往需要内存的精细操作，由于 Rust 允许在 unsafe 下访问裸指针，可以实现零开销读取 • 将 Unsafe 包裹，对外提供足够的接口 i32

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

算的是否准确无误，从右边的输出可以看到基本是一致的。测试一下时间 • 使用第六节课中的 ticktock.h 测试一下 CPU 和 GPU 的用时。 • 注意，这里一定要把 TOCK 放到同步之后。原因之前说过，因为对 GPU 核函数的调用是异步的，只有 cudaDeviceSynchronize() 以后才真正完成执行，才能算出真的时间。 • 查看结果，发现 GPU 比 CPU 快了很多通常板块数量总是大于 SM 的数量，这时英伟达驱动就会在多个 SM 之间调度你提交的各个板块。正如操作系统在多个 CPU 核心之间调度线程那样…… • 不过有一点不同， GPU 不会像 CPU 那样做时间片轮换——板块一旦被调度到了一个 SM 上，就会一直执行，直到他执行完退出，这样的好处是不存在保存和切换上下文（寄存器，共享内存等）的开销，毕竟 GPU 的数据量比较大，禁不起这样切换来切换去…… 在真分支会避免修改寄存器和访存，产生副作用。而为了避免会产生额外的开销。因此建议 GPU 上的 if 尽可能 32 个线程都处于同一个分支，要么全部真要么全部假，否则实际消耗了两倍时间！避免修改寄存器和访存相当于 CPU 的 SIMD 指令 _mm_blendv_ps 和 _mm_store_mask_ps ，不过 GPU 这种 SIMT 的设计能够自动处理分支和循环的分歧，这是

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

看本期性能优化专题课吧！分支预测成败对性能的影响排序为什么对有分支的版本影响那么大为什么需要流水线 • 为了高效， CPU 的内部其实是一个流水线 (pipeline) 。流水线的目的是能把原本串行的一系列指令并行化。为了理解为什么需要流水线，我们先反过来，假设没有流水线，会有什么坏处。 • 例如，右边你今天早上的任务清单。 • 请问你这些任务总共需要多少时间？任务时间占用资源干瞪眼，什么也不做，其实完全可以在烧开水的同时洗脸刷牙呀！原始的 CPU 也是这样， ALU 在运算的时候指令解码单元就在旁边干瞪眼，要等 ALU 跑完写回寄存器来指令解码单元才开始继续工作，很低效。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股洗脸烧开水更高效的办法是，观察每个任务都占用哪些资源，所占用资源不冲突的可以同时进行，节省时间。 • 例如洗脸需要眼睛嘴巴手，刷牙需要嘴巴手，那么洗脸和刷牙不能同时进行。但是烧开水只需要占用煤气灶，和洗脸刷牙不冲突，所以可以一边烧开水一边洗脸刷牙。 • 所以让小彭老师来优化的话，可以只需要 5 + 5 + 10 + 20 = 40 分钟，比你快一倍多。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水

0 码力 | 47 页 | 8.45 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

低质量 / 低效率 / 高成本：人淹没在系统的海洋里，无数平台手工切换高人效 / 高质量 / 高效率 / 低成本：人在系统之外 / 上，复杂性下沉到单一平台希望工程师不再花时间在开发写代码之外的脏活累活，比如服务部署、找环境，服务编排等 Infra 的事情。 1 0 0 % 开源基本能力开源 1.5 个月核心重构 65% 功能实现开源支撑开源社区开发者环境 DevOps 方案降本提效组织能力提升业务负责人研发不透明，规划凭感觉： • 发版时间靠运气 • 团队熬夜冲进度研发透明化：不同项目清晰可见的效率、质量、进度进度管理：根据团队客观数据，预测和确定项目规划迭代进度一目了然项目从无到有可核算管理有数据科学依据解放管理，更多时间花在业务创新平台运维业务压力大，能力建设缓慢： • 大量工作花在工具链维护 • 项目间依赖复杂，环境管理难人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范，开发自助上线；解放运维，工作重心向业务稳定性保障，建设平台工程体系研发研发时间被大量占用： • 本地开发环境难模拟 • 多业务联调艰难，诊断耗时多 • 出现问题诊断耗时多 • 流程割裂协作痛苦，响应慢调试自测免打扰：本地 / 子环境免打扰，独立完成验证工作自助验证更高效：自动化工作流

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

态的虚函数，这就是被小彭老师称为自动虚克隆 (auto-vitrual-clone) 的大法。 Zeno 中对 OpenVDB 对象的封装 • 开源的体积数据处理库 OpenVDB 中有许多“网格”的类（可以理解为多维数组），例如： • openvdb::Vec3fGrid ， FloatGrid ， Vec3IGrid ， IntGrid ， PointsDataGrid • 我们并不知道他们之间的继承关系，可能有也可能没有。但是在

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

RAII…… 第 0 章：时间 C 语言如何处理时间： time.h • long t0 = time(NULL); // 获取从 1970 年 1 月 1 日到当前时经过的秒数 • sleep(3); // 让程序休眠 3 秒 • long t1 = t0 + 3; // 当前时间的三秒后 • usleep(3000000); API ，没有类型区分，导致很容易弄错单位，混淆时间点和时间段。 • 比如 t0 * 3 ，乘法对时间点而言根本是个无意义的计算，然而 C 语言把他们看做一样的 long 类型，从而容易让程序员犯错。 C++11 引入的时间标准库： std::chrono • 利用 C++ 强类型的特点，明确区分时间点与时间段，明确区分不同的时间单位。 • 时间点例子： 2022 年 1 月 8 日 13 点 07 分 10 秒 • 时间段例子： 1 分 30 秒 • 时间点类型： chrono::steady_clock::time_point 等 • 时间段类型： chrono::milliseconds ， chrono::seconds ， chrono::minutes 等 • 方便的运算符重载：时间点 + 时间段 = 时间点，时间点 - 时间点 = 时间段 • auto t0 =

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行摩尔定律：停止增长了吗？ • 晶体管的密度的确仍在指数增长，但处理器主频却开始停止增长了，甚至有所下降。 • 很长时间之前我们就可以达到 2GHz （ 2001 年 8 月），根据 2003 年的趋势，在 2005 年初我们就应该研发出 10GHz 的芯片。 • 可为何直到今天也生产不出 10GHz 的芯片？是性能毕竟不是线性增长。 • 为什么无法做到呢？首先，为了保证缓存一致性以及其他握手协议需要运行时间开销。在今天，双核或者四核机器在多线程应用方面，其性能不见得的是单核机器的两倍或者四倍。这一问题一直伴随 CPU 发展至今。并发和并行的区别 • 运用多线程的方式和动机，一般分为两种。 • 并发：单核处理器，操作系统通过时间片调度算法，轮换着执行着不同的线程，看起来就好像是同时运行一样，其实每一时刻只有第 1 章：并行循环时间复杂度（ time-efficiency ）与工作量复杂度（ work-efficiency ） • 在“小学二年级”算法课里，我们学过复杂度的概念，意思是算法执行所花费的时间取决于数据量的大小 n ，比如 O(n²) 表示花费时间和数据量的平方成正比。 • 对于并行算法，复杂度的评估则要分为两种： • 时间复杂度：程序所用的总时间（重点） • 工作复杂度：程序所用的计算量（次要）

0 码力 | 116 页 | 15.85 MB | 1 年前
3

共 26 条前往

页

Rust Borsh C++高性性能高性能并行编程优化课件 07 09 游人 RustCC AtlasGraph 08 Zadig 面向开发开发者原生 DevOps 平台 05 06

分类

语言

格式