图像增强 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

绕过conntrack，使用eBPF增强 IPVS优化K8s网络性能

0 码力 | 24 页 | 1.90 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

2048*2028*1024 的三维网格），然后在里面索引，这样就相当于利用硬件的分页机制实现了稀疏数据结构，既能高效利用内存，随机访问和插桩又特别高效。有兴趣可以研究一下他们的论文，也用了莫顿序增强 TLB 和缓存的局域性，非常精彩。 vector 也可以不初始化：只需使用一个帮手类也可以使用小彭老师封装好的帮手类重复分配效率低 • 即使第二次分配的是同一段差不多大小的内存，也是会产生缺页中断，花费分配时间的。也不会越界。 ndarray ：解决访问越界问题 • 我们采用了“索性分配更大数组”的办法。 • 因此我们现在给 ndarray 的模板加了一个额外参数，用来控制边界层的大小。 • 这里我们的图像模糊操作需要向外扩张访问 8 个元素，因此需要把 a 的边界层大小声明为 8 ，即 ndarray<2, float, 8> 。 ndarray ：解决起始地址对齐问题有些 SIMD 指令要求地址对齐到一定字节数，否则会 structured grid ）表示，那就是一个插桩操作。 • 插桩的内核（ kernel ）指的就是这个“周围范围”的形状（如右图三个例子）和每个地方读取到值对修改自身值的权重等信息。 • 个人认为，图像处理中的模糊操作，或者是滤波操作，就属于插桩。有的插桩内核各轴向是对称的（比如高斯模糊），有的是单单往一个方向延伸很长（比如径向模糊），有的内核是正方形（箱滤波）。 • 人工智障圈子里好像管这个叫卷积（

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

器的电脑，他正在渲染 cornell box 的图像，这个图像在单核上渲染需要 4 分钟。 • 他把图像切成 4 份，每个是原来的 1/4 大小，这样每个小块渲染只需要 1 分钟。 • 然后他把 4 个小块发给 4 个处理器核心， 1 分钟后 4 个处理器都渲染完毕得到结果。 • 最后只需将 4 个小块拼接起来即可得到完整的 cornell box 图像。总共只花了 1 分钟。图形学爱 1 2 3 4 1 分 15 秒 1 分 30 秒 0 分 45 秒 0 分 30 秒解决 1 ：线程数量超过 CPU 核心数量，让系统调度保证各个核心始终饱和 • 因此，最好不是按照图像大小均匀等分，而是按照工作量大小均匀等分。然而工作量大小我们没办法提前知道……怎么办？ • 最简单的办法：只需要让线程数量超过 CPU 核心数量，这时操作系统会自动启用时间片轮换调度，轮流执 15 13 5 解决 2 ：线程数量不变，但是用一个队列分发和认领任务 • 但是线程数量太多会造成调度的 overhead 。 • 所以另一种解法是：我们仍是分配 4 个线程，但还是把图像切分为 16 份，作为一个“任务”推送到全局队列里去。每个线程空闲时会不断地从那个队列里取出数据，即“认领任务”。然后执行，执行完毕后才去认领下一个任务，从而即使每个任务工作量不一也能自动适应。

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

dim3(n, 1, 1)>>> 的简写而已。图片解释三维的板块和线程 • 之所以会把 blockDim 和 gridDim 分三维主要是因为 GPU 的业务常常涉及到三维图形学和二维图像，觉得这样很方便，并不一定 GPU 硬件上是三维这样排列的。 • 三维情况下同样可以获取总的线程编号（扁平化）。 • 如需总的线程数量： blockDim * gridDim • 如需总的线程编号：效，可以把数组故意搞成不对齐的 33 跨步来避免。 • 顺便一提，英伟达的 warp 大小是 32 ，而 AMD 的显卡则是 64 ，其他概念如共享内存基本类似。第 10 章：插桩操作实战读写图像 • 首先是读写图像的函数，利用了 stb_image 这个单头文件库。 X 方向模糊 • 然后看实现径向模糊的核函数。 Y 方向模糊 • Y 方向同理。经典案例： jacobi 迭代 • 相比第七课

0 码力 | 142 页 | 13.52 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

发者体验增强 2023 年面向生态伙伴开放场景面向开发者提供 IDE 插件 / 自测环境通用工作流广泛链接生态赋能开发者企业解决方案和最佳实践内置发布 AI 增强解决方案企业开放性、 A I 能力增强产品发展历程高频极速迭代： Zadig 开源 29 个月共迭代 21 个版本 “ ” 开发者常处于今天发版、明早升级 g , 集成测试完全没法做 ” 更多 Zadig 应用场景 Zadig 应用场景加速云原生转型 / 容器化 / 多云迁移微服务大规模的容器化转型，优化 & 增强 DevOps 工具链的建设典型客户：路特斯、七牛、非码、连尚、锅圈、埋堆堆、九州通研发效能提升（开发、测试、发布工程）优化加速产研流程，工程师团队级规模化协作，消除工具孤岛，系统性的提升人效

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

标准库的功能，难免会用到一些第三方库。 • 最友好的一类库莫过于纯头文件库了，这里是一些好用的 header-only 库： 1. nothings/stb - 大名鼎鼎的 stb_image 系列，涵盖图像，声音，字体等，只需单头文件！ 2. Neargye/magic_enum - 枚举类型的反射，如枚举转字符串等（实现方式很巧妙） 3. g-truc/glm - 模仿 GLSL 语法的数学矢量

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

这里我们是在 func 内部调用了 malloc ，当然我们需要告诉调用者去 free 我们返回的指针。 • size_t* n 用于额外返回数组的大小，如果不需要也可以不加。 • 例子：读取图像像素值作为数组的 stbi_load 函数（稍后要 stbi_free 释放他返回的指针）。函数需要输入或输出数组？分类讨论 • 第三种情况有一个更好的解决方案，那就是分成两个函数： •

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

又被称为矢量，而原始的一次只能处理 1 个 float 的方式，则称为标量。 • 在一定条件下，编译器能够把一个处理标量 float 的代码，转换成一个利用 SIMD 指令的，处理矢量 float 的代码，从而增强你程序的吞吐能力！ • 通常认为利用同时处理 4 个 float 的 SIMD 指令可以加速 4 倍。但是如果你的算法不适合 SIMD ，则可能加速达不到 4 倍；也有因为 SIMD 让访问内存更有规律，节约了指

0 码力 | 108 页 | 9.47 MB | 1 年前
3

共 8 条前往

页

绕过 conntrack 使用 eBPF 增强 IPVS 优化 K8s 网络性能 C++高性高性能并行编程课件 07 06 08 Zadig 面向开发开发者原生 DevOps 平台 01 12 04

分类

语言

格式