匹配模式 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

• 但是却没有出错，这是因为模板没有被调用，所以不会被实际编译！ • 而只有当 main 调用了这个函数，才会被编译，才会报错！ • 用一个假模板实现延迟编译的技术，可以加快编译的速度，用于代理模式等。模板函数：一个例子 • 比如，要打印任意一个 vector ：模板函数：配合运算符重载 • 实现用 std::cout << a 打印任意 vector ：模板函数：大家学废了吗！ const & ） • 同理， auto const & 可以定义常引用：自动类型推导：函数返回引用 • 当然，函数的返回类型也可以是 auto & 或者 auto const & 。比如懒汉单例模式：理解右值：即将消失的，不长时间存在于内存中的值 • 引用又称为左值（ l-value ）。左值通常对应着一个长时间存在于内存中的变量。 • 除了左值之外，还有右值（ r-value ）。右值通常是一个表达式，代 decltype(auto) p = func(); • 会自动推导为 func() 的返回类型。 • 和下面这种方式等价： • decltype(func()) p = func(); • 在代理模式中，用于完美转发函数返回值。比如： • decltype(auto) at(size_t i) const { • return m_internal_class.at(i); } using

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

，他们分别在各自的目录下有自己的 CMakeLists.txt 。二、根项目的 CMakeLists.txt 配置 • 在根项目的 CMakeLists.txt 中，设置了默认的构建模式，设置了统一的 C++ 版本等各种选项。然后通过 project 命令初始化了根项目。 • 随后通过 add_subdirectory 把两个子项目 pybmain 和 biology src/*.cpp) • 疑问 1 ：都是按照通配符批量匹配文件，有什么区别？ • GLOB ： src/main.cpp （√） src/test/main.cpp （ × ） • GLOB_RECURSE ： src/main.cpp （√） src/test/main.cpp （√） • 区别在于 GLOB_RECURSE 允许 * 匹配嵌套的目录。 • 疑问 2 ：加了 CONFIGURE_DEPENDS IMPORTED Targets 章节是在介绍现代的用法，而 Result Variables 章节是在介绍古代的用法，我们尽量用现代的那种就行。官方文档： find_package 的两种模式指定使用哪种模式 • find_package(TBB MODULE REQUIRED) • 只会寻找 FindTBB.cmake ，搜索路径： 1. ${CMAKE_MODULE_PATH} （默认为

0 码力 | 56 页 | 6.87 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

编译器生成 GPU 指令码。最后再链接成同一个文件，看起来好像只编译了一次一样，实际上你的代码会被预处理很多次。 • 他在 GPU 编译模式下会定义 __CUDA_ARCH__ 这个宏，利用 #ifdef 判断该宏是否定义，就可以判断当前是否处于 GPU 模式，从而实现一个函数针对 GPU 和 CPU 生成两份源码级不同的代码。 __CUDA_ARCH__ 是个版本号 • 其实 __CUDA_ARCH__ CPU 再进行调用，这是 CUDA 特有的能力。常用于这种情况：需要从 GPU 端动态计算出 blockDim 和 gridDim ，而又不希望导回数据到 CPU 导致强制同步影响性能。这种模式被称为动态并行（ dynamic parallelism ）， OpenGL 有一个 glDispatchComputeIndirect 的 API 和这个很像，但毕竟没有 CUDA 可以直接在 blockDim ），都能自动根据给定的 n 区间循环，不会越界，也不会漏掉几个元素。 • 这样一个 for 循环非常符合 CPU 上常见的 parallel for 的习惯，又能自动匹配不同的 blockDim ，看起来非常方便。从线程到板块 • 核函数内部，用之前说到的 blockDim.x + blockIdx.x + threadIdx.x 来获取线程在整个网格中编号。

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

uint64_t address; • char data[64]; • }; • CacheEntry cache[512]; • 当 CPU 读取一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则给 CPU 返回缓存中的数据。如果找不到，则向主内存发送请求，等读取到该地址的数据，就创建一个新条目。 • 在 x86 架构中每个条目的存储 64 字节的数据，这个条目 uint64_t address; • char data[64]; • }; • CacheEntry cache[512]; • 当 CPU 写入一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则修改缓存中该地址的数据。如果找不到，则创建一个新条目来存储 CPU 写的数据，并标记为脏（ dirty ）。 • 当读和写创建的新条目过多，缓存快要塞不下时，他会把最 4KB ？原来现在操作系统管理内存是用分页（ page ），程序的内存是一页一页贴在地址空间中的，有些地方可能不可访问，或者还没有分配，则把这个页设为不可用状态，访问他就会出错，进入内核模式。 • 因此硬件出于安全，预取不能跨越页边界，否则可能会触发不必要的 page fault 。所以我们选用页的大小，因为本来就不能跨页顺序预取，所以被我们切断掉也无所谓。 • 另外，我们可以用

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

这样就可以在编译期提前发现错误：解决方案：要么定义 • 如果需要允许用户拷贝你的 Vector 类对象，我们还是需要实现一下的。 • 发现了吗？其实不管是 size/resize 这样的 get/set 模式也好；自定义的拷贝构造函数也好； RAII 保证异常安全也好；都是在为面向对象思想的“封装：不变性”服务。 • 即：保证任何单个操作前后，对象都是处于正确的状态，从而避免程序读到错误数据 • 因为他们的业务需求大多是：打开数据库，增删改查学生数据，打开一个窗口，写入一个文件，正则匹配是不是电邮地址，应答 HTTP 请求等。 • 这些业务往往都是在和资源打交道，从而基本都是刚刚说的要删除拷贝函数的那一类，解决这种需求，几乎总是在用 shared_ptr 的模式，于是 Java 和 Python 干脆简化：一切非基础类型的对象都是浅拷贝，引用计数由垃圾回收机制自动管理。多线程等概念作为语言基本元素存在。这些在我们的业务里面是非常重要的，所以不可替代。 • （试图升华文章中心主旨）扩展阅读关键字 • 限于篇幅，此处放出一些扩展知识供学有余力的同学研究： 1. P-IMPL 模式 2. 虚函数与纯虚函数 3. 拷贝如何作为虚函数 4. std::unique_ptr::release() 5. std::enable_shared_from_this 6. dynamic_cast

0 码力 | 96 页 | 16.28 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

，可扩展的分析引擎支持更复杂的数据挖掘和机器学习场景 MPP Massively Parallel Processing 架构，大规模集群分布式存储及并行计算， Shared Nothing 模式支持存储计算分离高性能基于 Rust 开发的分布式存储引擎及图计算引擎，精细的内存管理设计，内置索引系统，支持毫秒级的并发查询响应速度易用 AQL(Atlas Graph Query 自研图计算系统架构、极致的性能优化  深度适应客户的系统环境和算法需求 • 机器数量有限，通常小于 10 • 网络带宽不高（千兆、万兆以太网） • 需要支持各种不同类型的图计算算法  双重执行模式 • 单机和分布式两套计算系统，在不同的使用环境中都能达到最佳性能  针对常用算法逐个设计优化方案 • 对于常用算法，跳过固定的编程模型，分别设计最佳的计算方案 • 例如我们自研的 node2vec 实时图结构预览 • 用户授权管理 • 中文及显示别名支持图模型设计 WebUI—— 可视化图探索分析【亮点】 • K 步邻居查询、属性过滤 • 最短路径、全路径分析 • 按实体、边类型匹配查询 • 子图识别、环路识别等在线图挖掘分析 • 实体、边可视化统计分析 • 树、层次、分组等多种布局方式 • 基于 D3 自研的万级别实体展现可视化图探索分析 AtlasGraph

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

Windows 在中国发售时，就会默认采用 GB18030 格式，所以有时候你会发现 Windows 上编辑好的文件，拿到 Linux （往往是 UTF-8 ）的电脑上打开会变成乱码。就是因为编码格式不匹配的原因。 • 但如果你 Windows 上写日记，只写 ASCII 字符，那么拿到 Linux 就不会有任何问题。因为 UTF-8 和 GBK 这两个编码格式是兼容 ASCII 的，他保证 0x00~0x7F 个英文字符，因为他们只利用 0x80~0xFF 的部分…… https://unicode-table.com/cn/6211/ MSVC 经典笑话：烫烫烫屯屯屯 • Windows 的 MSVC 在 Debug 模式下会默认把未初始化的栈内存填满 0xCC （ x86 的 INT3 单步中断指令），未初始化的堆内存填满 0xCD 。 • 而 0xCCCC 在 GBK 编码中就是“烫”，所以如果不小心打印了栈上

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

shrink_to_fit 只是提前释放而已。迭代器入门迭代器模式 • 如果要把右边这个打印的操作封装起来，该怎么做？迭代器模式 • 如果要把右边这个打印的操作封装起来，该怎么做？ • 可以用一个函数来封装打印操作： • print(vector const &a); 迭代器模式 • 如果要把右边这个打印的操作封装起来，该怎么做？ • 可以用一个函数来封装打印操作： print(vector const &a); • 但是这样的缺点是他只能打印 vector 类型，没法打印 string 类型。要支持 string 只能再写一遍一样的 print 函数。迭代器模式 • 注意到 vector 和 string 的底层都是连续的稠密数组，他们都有 data() 和 size() 函数。 • 因此可改用首地址指针和数组长度做参数： • print(char 况下，只用最简单的接口（首地址指针）就完成了遍历和打印的操作。迭代器模式 • 使用指针和长度做接口的好处是，可以通过给指针加减运算，选择其中一部分连续的元素来打印，而不一定全部打印出来。 • 比如这里我们选择打印前三个元素（去掉了最后一个元素，但不必用 pop_back 修改数组，只要传参数的时候修改一下长度部分即可）。迭代器模式 • 使用指针和长度做接口的好处是，可以通过给指针加减运算，选择其中一部分连续

0 码力 | 90 页 | 4.93 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

（会安装到 /opt/openvdb-8.0/lib/libopenvdb.so ） • cmake -B build -DCMAKE_BUILD_TYPE=Release • ↑ 设置构建模式为发布模式（开启全部优化） • cmake -B build ← 第二次配置时没有 -D 参数，但是之前的 -D 设置的变量都会被保留 • （此时缓存里仍有你之前定义的 CMAKE_BUILD_TYPE 目录下。第 2 章：项目配置变量 CMAKE_BUILD_TYPE 构建的类型，调试模式还是发布模式 • CMAKE_BUILD_TYPE 是 CMake 中一个特殊的变量，用于控制构建类型，他的值可以是： • Debug 调试模式，完全不优化，生成调试信息，方便调试程序 • Release 发布模式，优化程度最高，性能最佳，但是编译比 Debug 慢 • MinSizeRel 最小体积发布，生成的文件比 • 默认情况下 CMAKE_BUILD_TYPE 为空字符串，这时相当于 Debug 。各种构建模式在编译器选项上的区别 • 在 Release 模式下，追求的是程序的最佳性能表现，在此情况下，编译器会对程序做最大的代码优化以达到最快运行速度。另一方面，由于代码优化后不与源代码一致，此模式下一般会丢失大量的调试信息。 1. Debug: `-O0 -g` 2. Release: `-O3

0 码力 | 166 页 | 6.54 MB | 1 年前
3
Rust 异步并发框架在移动端的应用 - 陈明煜

现有框架无法完美适配移动端（一） Core Thread Thread Worker Worker task task Local queue Local queue Tokio 采用了如右图这种 GMP 模式： • 一核可以绑定多线程，每个线程拥有一个 Worker ，每个 Worker 拥有一个任务队列 • 但线程拥有相同优先级 • Worker 只持有一个本地 FIFO 队列移动端诉求：优先级 spawn_blocking 调度模式 spawn 调度模式 Thread Worker task Local queue Thread Thread task Global queue task New task Global queue New task take & run take & run Worker take & run Steal & run 两种接口拥有两套割裂的调度模式和线程池库中 thread scope 的思想异步化  在同步环境阻塞等待子异步任务完成，在异步环境异步等待子异步任务完成  优先级继承：子任务默认继承父任务优先级，也可使用 detached 模式指定其他优先级  任务取消：取消父任务，也将取消所有子任务性能 Performance 耗时 ( 单位 us) Tokio ylong 耗时比 / tokio IO 低并发，低传输

0 码力 | 25 页 | 1.64 MB | 1 年前
3

共 24 条前往

页

C++高性性能高性能并行编程优化课件 03 16 08 07 02 游人 RustCC AtlasGraph 15 13 11 陈明煜 2023RustChinaConf

分类

语言

格式