数据版本控制 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

从稀疏数据结构到量化数据类型 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、形怪状也不会浪费内存。这些被写入的部分被称为激活元素 (active element) ，反之则是未激活 (inactive) 。这就是稀疏的好处，按需分配，自动扩容。分块则是利用了我们存储的数据常常有着空间局域性的特点，减轻哈希表的压力，同时在每个块内部也可以快乐地 SIMD 矢量化， CPU 自动预取之类的。第 2 章：位运算稀疏的好处：坐标可以是负数这样即使坐标为负数，或是负数，则得到的模也是负数。 Python 的 % 就没问题 • 7 % 4 = 3 • -7 % 4 = 1 • Python 的模运算 a % b 的值始终是 [0, b) 区间内的正数，非常方便。对稀疏数据结构造成的问题 • 如果这里的 x 是负数，则 x % B 也是负数，会造成对 m_block 的越界访问。 • 因此 % 会返回负数对 CFD 用户来说是个很大的坑点，很多人想当然地用 % 做循环边界，

0 码力 | 102 页 | 9.50 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

新一代分布式高性能图数据库的构建北京海致星图科技有限公司 2023-06-18 沈游人数据库与大数据专场海致简介—企业级知识图谱开创者专业顶尖技术团队支撑超 700 人团队，其中 80% 为技术人员，创始团队在完成全球第一个中文知识图谱网站研发后，探索知识图谱技术在企业领域的应用。 2021 年，海致院士专家工作站成立，站内清华大学计算机博士生占比达 90% 以上。企业级数据解决方案专家为建行、工行、交行、招行、上交所、深交所、中国人寿等 70+ 银行证券保险企业、公安部、上海市公安局、武汉市公安局等 100+ 公安机构，国家电网、国信通产业集团等电力能源行业提供数据智能产品解决方案及长期服务。海致专注为政府、金融、能源等客户提供大数据处理、分析、挖掘服务，在互联网技术基础上，打造专业、易用的企业级大数据实战应用产品及解决方案。北京中关村总部北京中关村总部武汉运维中心深圳研发中心上海应用中心专注于数据智能技术赋能中国数字经济发展海致高性能图计算院士专家工作站郑纬民 - 海致科技首席科学家中国工程院院士、清华大学计算机科学与技术系教授、中国计算机学会前理事长，中国计算机系统结构的学科带头人，我国高性能计算和存储系统等方面的泰斗和先行者。 2021 年 3 月 25 日，海致科技与清华大学计算机科学与技术系共同建设高性能图计算院士专家工作站

0 码力 | 38 页 | 24.68 MB | 1 年前
3
基于 Rust Arrow Flight 的物联网和时序数据传输及转换工具霍琳贺

的物联网和时序数据传输及转换工具霍琳贺涛思数据 Rust China Conf 2023 CONTENTS 自我介绍 T D e n g i n e t a o s X R u s t 使用 TDengine Rust • OOXML - Excel 解析库 • xlsx2csv - Excel 转 CSV 工具 • Unqlite - 单文件非关系型数据库 • 连接器 • 数据可视化 • 数据库运维工具 • 第三方数据源接入 • BI 系统接入 https://taosdata.com/ https://github.com/zitsen CONTENTS 自我介绍 T D e n g i n e t a o s X R u s t 使用 TDengine: 时序数据库 TDengine 是一款开源、云原生的时序数据库（ Time ），专为物联网、工业互联网、金融、 IT 运维监控等场景设计并优化，具有极强的弹性伸缩能力。同时它还带有内建的缓存、流式计算、数据订阅等系统功能，能大幅减少系统设计的复杂度，降低研发和运营成本，是一个极简的时序数据处理平台。采用关系型数据库模型  需要建库、建表，  为提升写入和查询效率，要求一个数据采集点一张表  为实现多表聚合，引入超级表概念  子表通过超级表创建，带有标签，通过标签实现多表

0 码力 | 29 页 | 2.26 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

类特殊的控制字符 (control character) ： • 0 表示空字符（‘ \0’ ） • 9 表示 Tab 制表符（‘ \t’ ） • 10 表示换行（‘ \n’ ） • 13 表示回车（‘ \r’ ） • 27 表示 ESC 键（‘ \x1b’ ） • 127 表示 DEL 键（‘ \x7f’ ）等 • 0~31 和 127 这些整数，就构成了 ASCII 码中控制字符的部分。码中控制字符的部分。关于控制字符的一个冷知识 • 在 Linux 命令行中启动 cat 。 • 试试按 Ctrl+R ， Ctrl+E ， Ctrl+C 等一系列组合键，看到出现了什么？ • 可以看到显示的字符变成了 ^R ^E ^C 等… … • 这是 Unix 类系统显示控制字符的一种方式。 • 众所周知，我们常用 Ctrl+C 来发送中断信号（ SIGINT ）强制终止程序，这时常常会看到）强制终止程序，这时常常会看到一个 ^C 的字样，就是这样出现的。这里我们的 cat 程序收到 ^C 以后，就直接终止退出了。关于控制字符的一个冷知识 • 除此之外，因为 ^D 是“传输终止符”，还可以在控制台输入 Ctrl+D 来关闭标准输入流，终止正在读取他的程序。 • 小彭老师常用 Ctrl+D 来快速关闭一个 shell （和输入 exit 命令的效果一样）。 • 以及按 Ctrl+I 的效果其实和

0 码力 | 162 页 | 40.20 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN 代码变更 xN 配置变更 xN 部署测试环境 xN 部署预发环境 xN 部署生产环境 xN 部署 / 灰度上线 xN 监控 / 告警 xN 版本归档 xN 交付追踪 xN 数据度量 xN 服务、工单管理事件、缺陷管理想法用户运行阶段贡献者流程优化 2022 年 9 月场景深化能力增强 Helm/K8s YAML/ 托管场景接入流程优化 UX/UI 升级，工程师一线体验优化推出效能看板，实时客观度量工程数据指标效率优化、开发者体验增强 2023 年面向生态伙伴开放场景面向开发者提供 IDE 插件 / 自测环境通用工作流广泛链接生态赋能开发者企业解决方案和最佳实践内置企业解决方案和最佳实践内置发布 AI 增强解决方案企业开放性、 A I 能力增强产品发展历程高频极速迭代： Zadig 开源 29 个月共迭代 21 个版本 “ ” 开发者常处于今天发版、明早升级嗷嗷待哺状态 Zadig 优势、使用场景、解决问题域 Zadig 解决问题域 Zadig 云原生开放性：极简、 0 负担接入 Zadig 业务架构 Zadig

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

并行能减轻计算瓶颈，但不减轻内存瓶颈，故后者是优化的重点。浮点加法的计算量 • 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU CPU 计算能力越强，相对之下来不及从内存读写数据，从而越容易 mem-bound 。 1 2 4 6 8 10 0 50 100 150 200 250 300 350 funcA funcB funcC 内存信息查看工具： dmidecode • 可以看到小彭老师电脑上插了 2 块内存，频率都是 2667 MHz ，数据的宽度是 64 位（ 8 字节）。 • 理论极限带宽 a ，实际搬运了 2048 MB 的数据。 • 花费了 0.0656 秒。 • 因此带宽是 31198 MB/s 。 • 和理论带宽 42672 MB/s 相差不多，符合我的预期。第 2 章：缓存与局域性针对不同数据量大小的带宽测试 • 我们试试看 a 不同的大小，对带宽有什么影响。针对不同数据量大小的带宽测试（续） • 可见数据量较小时，实际带宽甚至超过了理论带宽极限

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

src 目录下。第 2 章：项目配置变量 CMAKE_BUILD_TYPE 构建的类型，调试模式还是发布模式 • CMAKE_BUILD_TYPE 是 CMake 中一个特殊的变量，用于控制构建类型，他的值可以是： • Debug 调试模式，完全不优化，生成调试信息，方便调试程序 • Release 发布模式，优化程度最高，性能最佳，但是编译比 Debug 慢 • MinSizeRel Fortran ：老年人的编程语言 • CUDA ：英伟达的 CUDA （ 3.8 版本新增） • OBJC ：苹果的 Objective-C （ 3.16 版本新增） • OBJCXX ：苹果的 Objective-C++ （ 3.16 版本新增） • ISPC ：一种因特尔的自动 SIMD 编程语言（ 3.18 版本新增） • 如果不指定 LANGUAGES ，默认为 C 和 CXX 。 https://cmake VERSION x.y.z) 可以把当前项目的版本号设定为 x.y.z 。 • 之后可以通过 PROJECT_VERSION 来获取当前项目的版本号。 • PROJECT_VERSION_MAJOR 获取 x （主版本号）。 • PROJECT_VERSION_MINOR 获取 y （次版本号）。 • PROJECT_VERSION_PATCH 获取 z （补丁版本号）。一些没什么用，但 CMake

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： reduce ， scan ，矩阵乘法等 10.存储大规模三维数据的关键：稀疏数据结构 11.物理仿真实战：邻居搜索表实现 pbf 流体求解 12.C++ 在 ZENO 中的工程实践：从 primitive 说起 13.结业典礼：总结所学知识与优秀作业点评 I 硬件要求： ails/111681426 详见 https://www.bilibili.com/video/BV1fa411r7zp 的 1:18:48 上一课的案例代码：基于标准库基于 TBB 的版本：任务组 • 用一个任务组 tbb::task_group 启动多个任务，一个负责下载，一个负责和用户交互。并在主线程中等待该任务组里的任务全部执行完毕。 • 区别在于，一个任务不一定对应一个线程 time-efficiency ）与工作量复杂度（ work-efficiency ） • 在“小学二年级”算法课里，我们学过复杂度的概念，意思是算法执行所花费的时间取决于数据量的大小 n ，比如 O(n²) 表示花费时间和数据量的平方成正比。 • 对于并行算法，复杂度的评估则要分为两种： • 时间复杂度：程序所用的总时间（重点） • 工作复杂度：程序所用的计算量（次要） • 这两个指标

0 码力 | 116 页 | 15.85 MB | 1 年前
3
Rust分布式账务系统 - 胡宇

提供高效，低成本的数字银行服务关于我们： Airwallex 从设计架构到实现细节项目介绍分布式账务系统 Fintech 互联网正确性 bug= 资损 bug 不可怕，快速迭代可靠性丢数据 = 资损允许数据丢失性能超低延迟 + 高吞吐超高吞吐交易日志审计，监管调试使用分布式账务系统 Fintech 领域中的软件与互联网软件的不同需求分析支付处理： ● 转账 ● C 在不同分区执行一个事务的 TCC 转账计划 ● 转账计划 ○ 有向无环图 ○ 节点是一个任务 ○ 边是依赖关系 ● 事务层 Marker 负责执行计划 ○ ACID 保证 ○ 依赖控制 ○ 条件执行 ○ 调度账户变动请求跨分区转账分布式账务系统拥抱开源 github: https://github.com/airwallex/Auticuro doc: https://airwallex JetBrains + Rust 插件 Gitlab CI/CD 心路历程真刀实枪 – 文档工具文档生成 CI/CD git page 作为文档心路历程吐槽点 ● Nightly 版本编译器： tikv ， raft-rs ● 无官方库，官方库支持不成熟 ○ Kafka （第三方： https://github.com/kafka-rust/kafka-rust) ○ PostgreSQL

0 码力 | 27 页 | 12.60 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

生成两份源码级不同的代码。 __CUDA_ARCH__ 是个版本号 • 其实 __CUDA_ARCH__ 是一个整数，表示当前编译所针对的 GPU 的架构版本号是多少。这里是 520 表示版本号是 5.2.0 ，最后一位始终是 0 不用管，我们通常简称他的版本号为 52 就行了。 • 这个版本号是编译时指定的版本，不是运行时检测到的版本。编译器默认就是最老的 52 ，能兼容所有 GTX900 CMake 设置架构版本号 • 可以用 CMAKE_CUDA_ARCHITECTURES 这个变量，设置要针对哪个架构生成 GPU 指令码。 • 小彭老师的显卡是 RTX2080 ，他的版本号是 75 ，因此最适合他用的指令码版本是 75 。 • 如果不指定，编译器默认的版本号是 52 ，他是针对 GTX900 系列显卡的。 • 不过英伟达的架构版本都是向前兼容的，即版本号为 75 的 RTX2080 也可以运行版本号为 52 的指令码，虽然不够优化，但是至少能用。也就是要求：编译期指定的版本 ≤ 运行时显卡的版本。 CMAKE_CUDA_ARCHITECTURES 会自动转换成 --gpu-code 等编译 flag 版本号不要太新了 • 比如这里设置了 RTX3000 系列的架构版本号 86 ，在 RTX2080 上就运行不出结果。 • 最坑的是他不会报错！也不输出任何东西

0 码力 | 142 页 | 13.52 MB | 1 年前
3

共 34 条前往

页

分类

语言

格式