数据层优化 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Rust 异步 Runtime 的兼容层 - 施继成

Rust 异步 Runtime 的兼容层施继成 @ DatenLord Introduce what’s rust async runtime # Rust async runtime Analyze the reason of runtime isolation # Async runtime binding # Compatible layer 1 Create a wheel

0 码力 | 22 页 | 957.41 KB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

从稀疏数据结构到量化数据类型 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、中存储的表项数量，从而减轻哈希的压力。但意味着键值在空间上需要具有一定的局域性，否则会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域性正是稀疏网格能够实现的一大前提，稍后详细讨论。在 16x16 分块的基础上，只用一个 bit 存储图片解释稀疏的好处传统稠密二维数组无边界稀疏分块哈希表形怪状也不会浪费内存。这些被写入的部分被称为激活元素 (active element) ，反之则是未激活 (inactive) 。这就是稀疏的好处，按需分配，自动扩容。分块则是利用了我们存储的数据常常有着空间局域性的特点，减轻哈希表的压力，同时在每个块内部也可以快乐地 SIMD 矢量化， CPU 自动预取之类的。第 2 章：位运算稀疏的好处：坐标可以是负数这样即使坐标为负数，或

0 码力 | 102 页 | 9.50 MB | 1 年前
3
Golang在接入层长连接服务中的实践-黄欣

Golang 在接入层长连接服务中的实践黄欣基础平台－架构部目录 • 背景 • 架构 • 心得目录 • 架构 • 心得背景—why 长连接？ • 业务场景 – 大量实时计算 • 司机乘客撮合 • 实时计价 – 高频度的数据交互 • 坐标数据 • 计价数据 – App和服务端双向可达 • 上行（抢单） • 下行（派单）背景—why golang？ • 开发效率整体架构图架构—接口设计 • 原则 – 扩展性 – 稳定性（最好不用升级） • 解决方法 – Protobuf（golang） – 接口设计分层 • 框架层：模块间通信协议（类似tcp/udp） • 业务层：bytes（类似应用层）留给业务自己定义就好了架构—性能 • conn svr 架构—集群扩展 • Proxy本身无限扩容（无状态） • 依赖的存储可无限扩容（状态交给存储） statusLoop() 心得—profiling • Timer优化 • Channel使用优化心得—timer优化 • 为什么需要优化？ – 万级别的连接 – 每个连接上大量的定时任务（心跳检测，注册检测，认证检测）实际情况：当10w左右连接，什么数据不收发，只有定时器检测心跳超时，cpu 能耗掉一个core • 怎么优化？ – 特点： • 秒级别定时任务 • 范围最多60s –

0 码力 | 31 页 | 1.67 MB | 1 年前
3
Go性能优化概览-曹春晖

业务性能优化概览 By Xargin 《Go 语⾔⾼级编程》合著者 Go contributor ⽬录优化的前置知识 01 ⽣产环境的优化 02 Continuous profiling 03 优化的前置知识第⼀部分 Latency numbers every programmer should know https://colin-scott.github.io/p io/personal_website/research/interactive_latency.html 优化的前置知识 • 要能读得懂基本的调⽤栈 • 了解 Go 语⾔内部原理(runtime，常⽤标准库) • 了解常⻅的⽹络协议(http、pb) https://github.com/bagder/http2-explained https://github.com/bagder/http3-explained ⽤户声明的对象，被放在栈上还是堆上，是由编译器的 escape analysis 来决定的⽅法论内存使⽤优化 CPU 使⽤优化阻塞优化 GC 优化标准库优化 runtime 优化应⽤层优化底层优化 • 越靠近应⽤层，优化带来的效果越好 • 涉及到底层优化的，⼤多数情况下还是修改应⽤代码逻辑优化⽣产环境的优化第⼆部分⾸先，是发现问题 API 压测全链路压测⽣产环境被⾼峰流量打爆了

0 码力 | 40 页 | 8.69 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

深入浅出访存优化 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 为什么往 int 数组里赋值 1 比赋值 0 慢一倍？第 1 章：内存带宽 cpu-bound 与 memory-bound 循环体，并行才有较好的加速效果。称为计算瓶颈（ cpu- bound ）。 • 并行能减轻计算瓶颈，但不减轻内存瓶颈，故后者是优化的重点。浮点加法的计算量 • 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 CPU 计算能力越强，相对之下来不及从内存读写数据，从而越容易 mem-bound 。 1 2 4 6 8 10 0 50 100 150 200 250 300 350 funcA funcB funcC 内存信息查看工具： dmidecode • 可以看到小彭老师电脑上插了 2 块内存，频率都是 2667 MHz ，数据的宽度是 64 位（ 8 字节）。 • 理论极限带宽

0 码力 | 147 页 | 18.88 MB | 1 年前
3
4 Python机器学习性能优化

Python机器学习性能优化以BERT服务为例例，从1到1000 刘欣⽬目录 CONTENTS 1. 优化的哲学 2. 了解你的资源 3. 定位性能瓶颈 4. 动⼿优化 1. 优化的哲学 "There ain't no such thing as a free lunch" Ahmdal’s Law • 系统整体的优化，取决于热点部分的占⽐比和该部分的加速程度 No Free Free Lunch • 定位热点 & 热点加速 • 对于项⽬目开发周期：  1. 先做出效果  2. 确定整体pipeline  3. 再考虑优化 • 对于⼈人⼯工智能项⽬目：迭代周期更更⻓长，更更是如此以BERT服务为例 • BERT：  TODO：⼀一句句话解释  • 横扫多项NLP任务的SOTA榜 • 惊⼈人的3亿参数以BERT服务为例 • Self Attention机制 's=Happy birthday to [MASK].'     [“you"] 以BERT服务为例 • 我们现在上线了了这样⼀一个服务，每秒钟只能处理理10个请求 • Q: ⼤大家⼀一开始如何着⼿手优化 • Profile before Optimizing • 建⽴立闭环 2 了解你的资源 cpu/内存/io/gpu GPU为什么“快”？计算⼒对⽐ • GFLOPS/s   

0 码力 | 38 页 | 2.25 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

性能优化之无分支编程 Branchless Programming by 彭于斌（ @archibate ）两种代码写法：分支 vs 三目运算符两种使用方式：排序 vs 不排序测试结果（均为 gcc -O3 ）测试结果可视化图表比较：分支 vs 无分支分支无分支 0 0.01 0.02 0.03 耗时（越低越好）乱序有序 • 传统的分支方法实现的传统的分支方法实现的 uppercase ，对于排序过的数据明显比乱序时高效。 • 无分支的方法对于乱序和有序的数据一样高效，性能吊打了传统的分支方法。 • 对于传统分支的做法，为什么排序了的更高效？既然无分支更高效，我要怎样优化才能让我的程序变成无分支的呢？那就来看本期性能优化专题课吧！分支预测成败对性能的影响排序为什么对有分支的版本影响那么大为什么需要流水线 • 为了高效， CPU 节省时间。 • 例如洗脸需要眼睛嘴巴手，刷牙需要嘴巴手，那么洗脸和刷牙不能同时进行。但是烧开水只需要占用煤气灶，和洗脸刷牙不冲突，所以可以一边烧开水一边洗脸刷牙。 • 所以让小彭老师来优化的话，可以只需要 5 + 5 + 10 + 20 = 40 分钟，比你快一倍多。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

从汇编角度看编译器优化 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建：编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11 *(rsp - 4) = edi; 开启优化： -O3 movl %edi, %eax 相当于： eax = edi 32 位乘法运算： imull imull %esi, %eax 相当于： eax *= esi 64 位乘法运算： imulq imulq %rsi, %rax 相当于： rax *= rsi 不过是 int64_t 的整数加法：被优化成 leal 了 eax = rdi

0 码力 | 108 页 | 9.47 MB | 1 年前
3
IPC性能极致优化方案-RPAL落地实践

IPC性能极致优化方案-RPAL落地实践谢正尧字节跳动研发工程师目录方案诞生的背景 01 全进程地址空间共享与保护 02 用户态进程切换 03 高效的Go Event Poller 04 RPC框架Kitex集成 05 性能收益与业务展望 06 方案诞生的背景第一部分方案诞生的背景几种常见的同机通信场景： 1. 微服务合并部署（亲和性部署、sidecar 方案诞生的背景方案诞生的背景 IPC 的性能瓶颈有哪些: 1. 系统特权级切换； 2. 异步线程唤醒/休眠（事件通知）； 3. 数据拷贝（序列化/反序列化）；方案诞生的背景能不能把库函数调用的高性能优势做到 IPC 里面，降低进程间的事件通知和数据拷贝开销？以go-go微服务 RPC 通信场景为例，该问题可以抽象为，如何高效地在两个 go runtime 间进行函数调用？方案诞生的背景网络模型，实现了纯用户态的事件轮询和无拷贝的指针读写接口。从性能瓶颈的两点分析： 1. 异步线程唤醒：关键在于如何最低限度降低线程唤醒的开销，非必要不通知事件。 2. 数据序列化/反序列化需要做到跨进程的虚拟地址空间共享，通过传递指针来传递一切数据。全进程地址空间共享与保护第二部分全进程地址空间共享与保护模拟插件/动态链接库等方案的用户态上下文切换和虚拟地址访问，需要解决： 1. 虚拟地址冲突问题；

0 码力 | 39 页 | 2.98 MB | 1 年前
3
5.cgo 原理解析及优化实践

cgo 原理解析及优化实践朱德江蚂蚁集团 MOSN 核心成员 Golang contributor Envoy Golang extension maintainer 公众号 • 开源爱好者 • 十余年网关研发 • OpenResty 老司机（NGINX + LuaJIT） • MOSN 核心成员 • Envoy Golang extension maintainer • • 玩过 DSL 编译器 • 对 LuaJIT、Go 有一些研究目录背景介绍 01 cgo 工作机制 02 cgo 调度机制 03 CPU 优化 04 GC 优化 05 背景介绍第一部分网关发展历史网关的扩展机制什么是 MoE 举个例子为什么需要 MoE Envoy  研发效能  良好的生态，上手门槛低  Wasm？Lua？ Golang bug：trace 工具  性能挖掘空间大 cgo 工作机制第二部分 Foreign Function Interface 函数调用数据交互抽象模型 1 2 3  对 PC 寄存器的修改  编译器完成地址指引  函数调用规约  Go 1.17  数据结构/类型  内存对象生命周期  GMP cgo 编译的两个阶段 cgo 预编译常规编译 1 2  生成 wrapper

0 码力 | 45 页 | 5.74 MB | 1 年前
3

共 703 条前往

页

分类

语言

格式

Rust 异步 Runtime 的兼容层 - 施继成

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

Golang在接入层长连接服务中的实践-黄欣

Go性能优化概览-曹春晖

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

4 Python机器学习性能优化

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

IPC性能极致优化方案-RPAL落地实践

5.cgo 原理解析及优化实践