MVC模式 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

shrink_to_fit 只是提前释放而已。迭代器入门迭代器模式 • 如果要把右边这个打印的操作封装起来，该怎么做？迭代器模式 • 如果要把右边这个打印的操作封装起来，该怎么做？ • 可以用一个函数来封装打印操作： • print(vector const &a); 迭代器模式 • 如果要把右边这个打印的操作封装起来，该怎么做？ • 可以用一个函数来封装打印操作： print(vector const &a); • 但是这样的缺点是他只能打印 vector 类型，没法打印 string 类型。要支持 string 只能再写一遍一样的 print 函数。迭代器模式 • 注意到 vector 和 string 的底层都是连续的稠密数组，他们都有 data() 和 size() 函数。 • 因此可改用首地址指针和数组长度做参数： • print(char 况下，只用最简单的接口（首地址指针）就完成了遍历和打印的操作。迭代器模式 • 使用指针和长度做接口的好处是，可以通过给指针加减运算，选择其中一部分连续的元素来打印，而不一定全部打印出来。 • 比如这里我们选择打印前三个元素（去掉了最后一个元素，但不必用 pop_back 修改数组，只要传参数的时候修改一下长度部分即可）。迭代器模式 • 使用指针和长度做接口的好处是，可以通过给指针加减运算，选择其中一部分连续

0 码力 | 90 页 | 4.93 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

（会安装到 /opt/openvdb-8.0/lib/libopenvdb.so ） • cmake -B build -DCMAKE_BUILD_TYPE=Release • ↑ 设置构建模式为发布模式（开启全部优化） • cmake -B build ← 第二次配置时没有 -D 参数，但是之前的 -D 设置的变量都会被保留 • （此时缓存里仍有你之前定义的 CMAKE_BUILD_TYPE 目录下。第 2 章：项目配置变量 CMAKE_BUILD_TYPE 构建的类型，调试模式还是发布模式 • CMAKE_BUILD_TYPE 是 CMake 中一个特殊的变量，用于控制构建类型，他的值可以是： • Debug 调试模式，完全不优化，生成调试信息，方便调试程序 • Release 发布模式，优化程度最高，性能最佳，但是编译比 Debug 慢 • MinSizeRel 最小体积发布，生成的文件比 • 默认情况下 CMAKE_BUILD_TYPE 为空字符串，这时相当于 Debug 。各种构建模式在编译器选项上的区别 • 在 Release 模式下，追求的是程序的最佳性能表现，在此情况下，编译器会对程序做最大的代码优化以达到最快运行速度。另一方面，由于代码优化后不与源代码一致，此模式下一般会丢失大量的调试信息。 1. Debug: `-O0 -g` 2. Release: `-O3

0 码力 | 166 页 | 6.54 MB | 1 年前
3
Rust 异步并发框架在移动端的应用 - 陈明煜

现有框架无法完美适配移动端（一） Core Thread Thread Worker Worker task task Local queue Local queue Tokio 采用了如右图这种 GMP 模式： • 一核可以绑定多线程，每个线程拥有一个 Worker ，每个 Worker 拥有一个任务队列 • 但线程拥有相同优先级 • Worker 只持有一个本地 FIFO 队列移动端诉求：优先级 spawn_blocking 调度模式 spawn 调度模式 Thread Worker task Local queue Thread Thread task Global queue task New task Global queue New task take & run take & run Worker take & run Steal & run 两种接口拥有两套割裂的调度模式和线程池库中 thread scope 的思想异步化  在同步环境阻塞等待子异步任务完成，在异步环境异步等待子异步任务完成  优先级继承：子任务默认继承父任务优先级，也可使用 detached 模式指定其他优先级  任务取消：取消父任务，也将取消所有子任务性能 Performance 耗时 ( 单位 us) Tokio ylong 耗时比 / tokio IO 低并发，低传输

0 码力 | 25 页 | 1.64 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

surf3Dread 和 surf3Dwrite 来读写表面对象中的元素， x,y,z 参数指定要访问元素的坐标，要注意 x 必须乘以 sizeof( 元素类型 ) ，否则出错。 • 这里用了访问者模式（ Accessor ， GPU 编程常用）。原来的 CudaSurface 管理资源，禁止拷贝。然后单独弄一个访问者类 CudaSurfaceAccessor ，不管理资源，仅仅是指向资源的一个弱引用，可以随意拷贝。并把 cudaAddressModeBorder ：超出范围就用零代替 • 示意： 00 | ABCDE | 00 • cudaAddressModeWrap ：重叠模式（循环） • 示意： DE | ABCDE | AB • cudaAddressModeMirror ：镜像模式 • 示意： BA | ABCDE | ED CUDA 纹理对象：封装 • 其中 cudaTextureFilterMode 表示采样的坐标不是整数边界条件：添加判断边界的版本边界条件：仅在第一层额外判断边界条件进一步改进 VDB 导出：支持导出多个网格，并指定名称进一步改进 VDB 导出： P-IMPL 模式进一步改进 VDB 导出： F-IMPL 模式 Blender 渲染结果改进改进边界条件：外部边界流出而不是反弹，内部边界可以流出速度 Blender 中调整一下材质 Blender 中调整一下材质改进对流：让烟雾随时间逐渐褪色

0 码力 | 58 页 | 14.90 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

IObject 里的成员，而不会释放 CatObject 里的成员 string m_catFood 。所以这里的解构函数也是多态的，他根据类型的不同调用不同派生类的解构函数。多态用于设计模式之“模板模式” • 这样之后如果有一个任务是要基于 eatFood 做文章，比如要重复 eatFood 两遍。 • 就可以封装到一个函数 eatTwice 里，这个函数只需接受他们共同的基类 IObject 并且即使多个线程同时调用了 func ，这个变量的初始化依然保证是原子的（ C++11 起）。 • 这就是函数静态初始化 (func-static-init) 大法。函数静态初始化可用于“懒汉单例模式” • 如右图。 • getMyClassInstance() 会在第一次调用时创建 MyClass 对象，并返回指向他的引用。 • 根据 C++ 函数静态变量初始化的规则，之后的调用不会再重复创建。利用这个发现，我们意识到可以把 functab 用所谓的“懒汉单例模式”包装成一个 getFunctab() 函数，里面的 inst 变量会在第一次进入的时候初始化。因为第一次调用是在 defCat 中，从而保证是在所有 emplace 之前就初始化过，因此不会有 segfault 的问题了！函数表结合工厂模式 Zeno 中定义节点的宏 • 在 Zeno 中每个节点还额外有一个

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

• 但是却没有出错，这是因为模板没有被调用，所以不会被实际编译！ • 而只有当 main 调用了这个函数，才会被编译，才会报错！ • 用一个假模板实现延迟编译的技术，可以加快编译的速度，用于代理模式等。模板函数：一个例子 • 比如，要打印任意一个 vector ：模板函数：配合运算符重载 • 实现用 std::cout << a 打印任意 vector ：模板函数：大家学废了吗！ const & ） • 同理， auto const & 可以定义常引用：自动类型推导：函数返回引用 • 当然，函数的返回类型也可以是 auto & 或者 auto const & 。比如懒汉单例模式：理解右值：即将消失的，不长时间存在于内存中的值 • 引用又称为左值（ l-value ）。左值通常对应着一个长时间存在于内存中的变量。 • 除了左值之外，还有右值（ r-value ）。右值通常是一个表达式，代 decltype(auto) p = func(); • 会自动推导为 func() 的返回类型。 • 和下面这种方式等价： • decltype(func()) p = func(); • 在代理模式中，用于完美转发函数返回值。比如： • decltype(auto) at(size_t i) const { • return m_internal_class.at(i); } using

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

面向人群：图形学、 CFD 仿真、深度学习编程人员第 0 章：稀疏矩阵稠密数组存储矩阵用 foreach 包装一下枚举的过程改用 map 来存储分离 read/write/create 三种访问模式 foreach 直接给出当前坐标指向的值改用 unordered_map 来存储 unordered_map 手动 read(i, j) 也一样速度索性把坐标和值打包成 tuple ，存储在能计算而言 tbb::spin_mutex 更高效。其实 sizeof(std::mutex) = 40 字节，而 sizeof(tbb::spin_mutex) = 1 字节…… 小彭老师解决：访问者模式把写入过的块地址缓存起来，可以避免多次访问全局表的开销。缓存在访问者 (accessor) 的成员 map 里。访问者对象被我用 OpenMP 标记为 firstprivate ，意味着这个 map 指针数组的话，本来就是平坦的二维数组，直接用 omp parallel for collapse(2) 遍历二维区间。把 func 捕获为 firstprivate ，从而支持用 lambda 捕获的访问者模式。实现访问者模式 • 额，总之就是每一层都有一个缓存。第 5 章：量化整型使用 int ：每个占据 4 字节 • 记得我第七课说过，一个简单的循环体往往会导致内存成为瓶颈（ memory-

0 码力 | 102 页 | 9.50 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

典型代表方案特点分析 Zadig 方案优势传统 Jenkins 方案 GitLab + Jenkins + 脚本化运行效率低，管理维护成本高方案局限性大，安全性风险高无法支持敏捷交付模式；手工维护成本高，阻碍业务交付效率面向多服务并行部署，安全发布， 0 维护负担支撑云原生构建 / 运行环境，多云异构支持及企业级登录权限支持传统运维管理类平台蓝鲸 Rainbond 3 Zadig 平台工程模式及应用场景、架构解析开发者自服务 • 通过自服务的方式来加快发布速度，无需与运维持续沟通降低个人心智负担 • 通过平台工程，将底层的复杂性抽象化，降低个人心智负担，提高开发效率可重用降低运维成本 • 一些组织可能过度依赖高级工程师管理发布流程和基础设施，导致资源浪费和效率低下 Zadig 平台工程模式工程规模数据： • 1500+

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

，工作复杂度为 O(n) ，其中 n 是元素个数改进的并行缩并（ GPU ） • 刚才那种方式对 c 比较大的情况不友好，最后一个串行的 for 还是会消耗很多时间。 • 因此可以用递归的模式，每次只使数据缩小一半，这样基本每次都可以看做并行的 for ，只需 log2(n) 次并行 for 即可完成缩并。 • 这种常用于核心数量很多，比如 GPU 上的缩并。结论：改进后的并行缩并的时间复杂度为结束都需要同步，一定程度上妨碍了 CPU 发挥性能；而且每个 step 后依然写回了数组，数据缓存没法充分利用。另辟蹊径：流水线并行加速比： 6.73 倍反直觉的并行方式，但是加速效果却很理想，为什么？流水线模式下每个线程都只做自己的那个步骤（ filter ），从而对指令缓存更友好。且一个核心处理完的数据很快会被另一个核心用上，对三级缓存比较友好，也节省内存。且 TBB 的流水线，其实比教科书上描述的传统流水线并行更加优化：还有好处是他无需先把数据全读到一个内存数组里，可以流式处理数据（ on-fly ），节省内存。 • 不过需要注意流水线每个步骤（ filter ）里的工作量最好足够大，否则无法掩盖调度 overhead 。总结：各种并行模式 • 从串行到并行，从来就没有什么万能膏药。 • CPU 上的并行尚且如此，何况 GPU 。 • 熟悉原理、反复实验，才能优化出好程序。 • 本课仅入门，深入可以看 Pro TBB 这本书。

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

• shared_lock 同样支持 defer_lock 做参数， owns_lock() 判断等，同学们自己研究。只需一次性上锁，且符合 RAII 思想：访问者模式 Accessor 或者说 Viewer 模式，王鑫磊常用于设计 GPU 容器 OpenVDB 数据结构的访问，也是采用了 Accessor 的设计…… 并且还有 ConstAccessor 和 Accessor 两种，分别对应于读和线程被唤醒时，只有一个能够被启动。如果不需要，在 wait() 返回后调用 lck.unlock() 即可。 • 顺便一提， wait() 的过程中会暂时 unlock() 这个锁。案例：实现生产者 - 消费者模式 • 类似于消息队列…… • 生产者：厨师，往 foods 队列里推送食品，推送后会通知消费者来用餐。 • 消费者：等待 foods 队列里有食品，没有食品则陷入等待，直到被通知。条件变量：将

0 码力 | 79 页 | 14.11 MB | 1 年前
3

共 23 条前往

页

C++高性性能高性能并行编程优化课件 13 11 陈明煜 2023RustChinaConf 09 03 10 Zadig 面向开发开发者原生 DevOps 平台 06 05

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 13 C++ STL 容器全解之 vector

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

Rust 异步并发框架在移动端的应用 - 陈明煜

C++高性能并行编程与优化 - 课件 - 09 CUDA C++ 流体仿真实战

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

Zadig 面向开发者的云原生 DevOps 平台

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程