内核升级 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

为什么要 4KB ？原来现在操作系统管理内存是用分页（ page ），程序的内存是一页一页贴在地址空间中的，有些地方可能不可访问，或者还没有分配，则把这个页设为不可用状态，访问他就会出错，进入内核模式。 • 因此硬件出于安全，预取不能跨越页边界，否则可能会触发不必要的 page fault 。所以我们选用页的大小，因为本来就不能跨页顺序预取，所以被我们切断掉也无所谓。 • 另外，我们可以用 malloc 时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经 malloc 过的地址区间，则执行实际的内存分配，并标记该段内存为“可用”，下次访问就不会再产生缺页中断了；而如果用户写入的地址根本不是他初始化数组时，内存被写入，所以操作系统这时候才开始实际分配内存。 • 刚才的案例里，不会初始化的 malloc ，第一次往里面赋值时，因为这时操作系统还没有给这个数组分配内存，所以会触发缺页中断，进入操作系统内核给数组分配内存，是内核执行内存分配的这个动作，花费了额外的时间。而第二次因为内存已经被分配上了，所以再次访问也不会触发缺页中断，所以看起来比第一次快很多。进一步：分配是按页面（ 4KB ）来管理的 •

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

Concurrency in Action ）不一定就是完美解决方案，要根据实际情况判断。真正的解决： tbb::spin_mutex 其实主要的瓶颈在于 std::mutex 会切换到操作系统内核中去调度，非常低效。而 tbb::spin_mutex 则是基于硬件原子指令的，完全用户态的实现。区别： std::mutex 的陷入等待会让操作系统挂起该线程，以切换到另一个；而 tbb::spin_mutex malloc 时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经 malloc 过的地址区间，则执行实际的内存分配，并标记该段内存为“可用”，下次访问就不会再产生缺页中断了；而如果用户写入的地址根本不是他

0 码力 | 102 页 | 9.50 MB | 1 年前
3
Rust分布式账务系统 - 胡宇

第一个吃螃蟹的人从招聘到上线的干货心路历程落地第一个 Rust 项目磨刀霍霍 – 技术选型心路历程 ● 对新技术持开放态度 ● Kotlin ：简洁， JVM, GC ● Rust 引入 Linux 内核 ● Android 支持 Rust ● 积极探索新技术对金融科技的改变 ● 对于核心领域系统，追求极致性能，使用 Rust Airwallex 业界共识厉兵秣马 - 人才培养

0 码力 | 27 页 | 12.60 MB | 1 年前
3
Zadig 产品使用手册

D e v O p s 平台。领先企业抢先实践 Zadig Zadig 研发数字化转型方案正成为产业数字化战略的核心环节 Zadig 设计思路：通过「平台工程」解决流程挑战，通过「技术升级」提升组织效能 01 04 02 03 工程化协同：“人、技术、流程、工具” 四维协同基线，沉淀全流程数据，从感知到赋能，服务于工程师释放云基建能力：链接任何云及自建资源（容器、主机、车准备工作流运维（管理员） • IDE 热部署 • 更新镜像 • 更新配置 • 更新数据 • 日常调试开发工程师 • 日常测试验证 • 自动化测试测试工程师 • 升级预发环境 • 升级生产环境 • 变更数据库发布工程师核心场景介绍：不同角色工程师基于统一协作平面，操作使用自动化工作流和云原生环境面向角色功能描述工作流名称样例具体配置开发工程师 CI 栈实现灰度能力，可以通过新建环境随时拉起开发自测子环境如果采用 Istio + Skywalking 技术栈，通过 Zadig 开启自测模式随时拉起子环境测试工程师用于测试手工验证 sit 自主升级环境，选择一个或多个 PR/MR 进行功能需求的并行验证。用于测试集成验证 auto-sit 执行自动化 CD 过程用于验收测试 uat 以此环境作为发布生产环境前的用户验收环节发布 /

0 码力 | 52 页 | 22.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

的三维数组来表示。 • 定义求散度的核函数，首先读取速度场周围六个元素的值，然后上下做差得到散度。投影部分： jacobi 迭代求解压强投影部分：速度减去压强的梯度投影部分：初步实现 • 现在调用这些内核，让 jacobi 迭代 400 次，看看效果。 • 当然， jacobi 迭代因为需要写入 pre 的同时读取 pre ，所以也要用双缓冲。投影部分：计算未消除的散度为了评估效果的好坏，

0 码力 | 58 页 | 14.90 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

关键字给类定义一个虚函数，他其实就是在类成员里加了一个函数指针。 • 而在构造函数里，会把当前类重载过的虚函数，赋予给那个函数指针，实现多态。 • 虚函数是 C++ 的语法糖，纯 C 的 Linux 内核中也用到多态，就是用函数指针实现的。例如左图中的虚函数，和右边的函数指针版本等价。因此性能分析时，把虚函数视为函数指针。 • 注：实际中虚函数往往有很多个，为了存储空间的高效利用，会把多个虚函数打包成一个数组，称之

0 码力 | 47 页 | 8.45 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

暴力解决：用 mutex 上锁 • 这样的确可以防止多个线程同时修改 counter 变量，从而不会冲突。 • 问题： mutex 太过重量级，他会让线程被挂起，从而需要通过系统调用，进入内核层，调度到其他线程执行，有很大的开销。 • 可我们只是想要修改一个小小的 int 变量而已，用昂贵的 mutex 严重影响了效率。建议用 atomic ：有专门的硬件指令加持

0 码力 | 79 页 | 14.11 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

shared memory ） • 刚刚已经实现了无数据依赖可以并行的 for ，那么如何把他真正变成并行的呢？这就是板块的作用了，我们可以把刚刚的线程升级为板块，刚刚的 for 升级为线程，然后把刚刚 local_sum 这个线程局部数组升级为板块局部数组。那么如何才能实现板块局部数组呢？ • 同一个板块中的每个线程，都共享着一块存储空间，他就是共享内存。在 CUDA 的语法中，共享内存可以通过定的语法中，共享内存可以通过定义一个修饰了 __shared__ 的变量来创建。因此我们可以把刚刚的 local_sum 声明为 __shared__ 就可以让他从每个线程有一个，升级为每个板块有一个了。 • 然后把刚刚的 j 换成板块编号， i 换成线程编号就好啦。板块的共享内存（ shared memory ） • 但是刚刚算出来的结果好像不对了？ • 这是因为 SM 执行一个板块中的线程时，并不是全部同时执行

0 码力 | 142 页 | 13.52 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

掘 3-5 个领域敏感型场景建立产品发展委员会贡献者流程优化 2022 年 9 月场景深化能力增强 Helm/K8s YAML/ 托管场景接入流程优化 UX/UI 升级，工程师一线体验优化推出效能看板，实时客观度量工程数据指标效率优化、开发者体验增强 2023 年面向生态伙伴开放场景面向开发者提供 IDE 插件 / 自测环境增强解决方案企业开放性、 A I 能力增强产品发展历程高频极速迭代： Zadig 开源 29 个月共迭代 21 个版本 “ ” 开发者常处于今天发版、明早升级嗷嗷待哺状态 Zadig 优势、使用场景、解决问题域 Zadig 解决问题域 Zadig 云原生开放性：极简、 0 负担接入 Zadig 业务架构 Zadig 系统架构 1 Zadig vscode ）执行企业合规 S O P 流程，灰度蓝绿部署策略，完成生产环境发布最后一公里特色模块（一） – 发布管理多服务编排升级配置变更生产观测数据变更灰度发布流程自动化特色模块（二） – 客户交付供应商产品生命周期管理为客户提供生命周期管理管理不同渠道的版本可部署到任何环境简化

0 码力 | 59 页 | 81.43 MB | 1 年前
3
Bazel

Curve 编译 Curve bazel 编译分享程义 - 存储计算部 2022 年 11 月 11 日 C ur v e1 升级 bazel 到 4.2.2 2 支持 Debian9 、 Debian10 、 Debian11 3 支持 gcc clang 更新内容 Curve1 编译 Debian11-Dockerfile .bazelrc

0 码力 | 6 页 | 4.69 MB | 6 月前
3

共 12 条前往

页

C++高性性能高性能并行编程优化课件 07 10 胡宇 rust 分布布式分布式账务系统 Zadig 产品使用手册使用手册 09 05 08 面向开发开发者原生 DevOps 平台 Bazel

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

Rust分布式账务系统 - 胡宇

Zadig 产品使用手册

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

Zadig 面向开发者的云原生 DevOps 平台

Bazel