漏洞利用 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

陈东 - 利用Rust重塑移动应用开发-230618

第三届中国 Rust 开发者大会利用 Rust 重塑移动应用开发陈东 Aaron Chen CTO AccountLabs Rust China Conf 2023 2023 移动应用开发有那些选择？ 1. Native 2. Flutter 3. React Native ？利用 Rust 重塑移动应用开发 React Native is an open-source codebase - Hot reload - Rendering Engine 利用 Rust 重塑移动应用开发跨平台开发的优势和局限性 Pros: - Fast - Single Codebase - Third-party support (Javascript better than Dart) 利用 Rust 重塑移动应用开发跨平台开发的优势和局限性 Cons: - Existing Codebase 跨平台开发到到底应该跨什么？ UI or Logic ? 利用 Rust 重塑移动应用开发 Rust 在移动端应用的价值 Rust is the only advanced choice for cross platform development. 利用 Rust 重塑移动应用开发 Rust 的特点 Why Rust? - Cross platform

0 码力 | 22 页 | 2.10 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

应该达到 6 倍（物理核心数量）才算理想加速比。加速曲线 • funcA 用了 2 核就饱和。 • funcB 用了 4 核才饱和。 • funcC 用了 6 核才饱和。 • 结论：要想利用全部 CPU 核心，避免 mem-bound ，需要 func 里有足够的计算量。 • 当核心数量越多， CPU 计算能力越强，相对之下来不及从内存读写数据，从而越容易 mem-bound 字节的跨步，则中间的缓存行没有被读取，从而变快了。缓存行决定数据的粒度 • 结论：访问内存的用时，和访问的字节数量无关，和访问的每个字节所在的缓存行数量有关。 • 可见，能否很好的利用缓存，和程序访问内存的空间局域性有关。缓存行决定数据的粒度（续） • 所以我们设计数据结构时，应该把数据存储的尽可能紧凑，不要松散排列。最好每个缓存行里要么有数据，要么没数据，避的读， x 的写。浪费了 50% 带宽。 • 而 SOA 把三个属性分开存，每个属性作为独立的数组，稠密存储。这样当用不到 z 的时候， z 数组就完全不会被读取，不会占用内存带宽，从而带宽利用率是 100% ，因此比 AOS 快了 2 倍。 AOSOA ：两者得兼 • 还有一种办法就是让 MyClass 内部是 SOA ，而外部仍是一个 vector 的 AOS——

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

道数组在什么地方结束，规定用 ASCII 码中的“空字符”也就是 0 来表示数组的结尾。这样只需要一个首地址指针就能表示一个动态长度的数组，高，实在是高。 “0 结尾字符串”知识点应用举例 • 利用 C 语言字符串“以 0 结尾”这个特点，我们可以在一个本来非 0 的字符处写入 0 ，来提前结束字符串。例如在第 n 个字符写入 0 ，就会只保留前 n 个字符作为一个子字符串，删除后半部分。，不能自己定义了。 • 所以 cpp 之父曾经说，他设计 cpp11 的时候，是考虑“如何在对语言本身改动最小的情况下，尽量只在标准库里做手脚，尽可能只利用现有的语言特性，实现 cpp 的现代化。” • 例如 shared_ptr 可以通过利用语言本身的“拷贝构造函数”实现引用计数，没必要在编译器里开洞。但“移动语义”这个概念在旧 cpp 里没有，所以这个是真正必要的语言本身的改动。 • 而做个加法运算，得到新的指针并解引用。如果你给的 i 超过了字符串大小 i ≥ s.size() ，那程序的行为是未定义的，因为这个地方可能有其他的对象，程序可能会奔溃，也可能行为异常。如果是富连网程序，还可能会被黑客利用，窃取或篡改服务器上的数据。 • 那为什么还要 [] ？性能！ at 做越界检测需要额外的开销， [] 不需要。 • 所以 [] 更高效， at 更安全。遇到诡异 bug 时，试试把 [] 都改

0 码力 | 162 页 | 40.20 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

这里卖个关子，欲知后事如何，请待下集揭晓！更专业的性能测试框架： Google benchmark • 手动计算时间差有点太硬核了，而且只运行一次的结果可能不准确，最好是多次运行取平均值才行。 • 因此可以利用谷歌提供的这个框架。 • 只需将你要测试的代码放在他的 • for (auto _: bm) • 里面即可。他会自动决定要重复多少次，保证结果是准确的，同时不浪费太多时间。运行结果 (auto r) ，这里写具体类型仅为教学目的。 TBB 中其他并发容器第 7 章：并行筛选筛选（ filter ）利用 vector 的 push_back 动态追加数据筛选出所有大于 0 的 sin(i) 值并行筛选 1 （张心欣犯过的错）利用多线程安全的 concurrent_vector 动态追加数据基本没有加速，我猜想 concurrent_vector 内部可能 concurrent_vector 上产生锁竞争加速比： 5.55 倍并行筛选 3 线程局部的 vector 调用 reserve 预先分配一定内存避免 push_back 反复扩容时的分段式增长同时利用标准库的 std::copy 模板简化了代码加速比： 5.94 倍并行筛选 4 如果需要筛选后的数据是连续的，即 a 是个 std::vector ，这时就需要用 mutex 锁定，避免数据竞争

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）为什么需要模板函数（ template ） • 避免重复写代码。 • 比如，利用重载实现“将一个数乘以 2” 这个功能，需要：为什么面向对象在 HPC 不如函数式和元编程香了？这个例子要是按传统的面向对象思想，可能是这样：令 Int, Float, Double 继承 get 的返回类型。 tuple ：结构化绑定 • 可是需要一个个去 get 还是好麻烦。 • 没关系，可以用结构化绑定的语法： • auto [x, y, ...] = tup; • 利用一个方括号，里面是变量名列表，即可解包一个 tuple 。里面的数据会按顺序赋值给每个变量，非常方便。 tuple ：结构化绑定为引用 • 结构化绑定也支持绑定为引用： • auto &[x 没错，这样看来 optional 是在模仿指针， nullopt 则模仿 nullptr 。但是他更安全，且符合 RAII 思想，当设为 nullopt 时会自动释放内部的对象。 • 利用这一点可以实现 RAII 容器的提前释放。和 unique_ptr 的区别在于他的对象存储在栈上，效率更高。 variant ：安全的 union ，存储多个不同类型的值 • 有时候需要一个类型“要么存储

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

std::vector 等价（留做回家作业）。 • https://www.boost.org/doc/libs/1_55_0/doc/html/ boost_typeerasure.html 类型擦除利用的是 C++ 模板的惰性实例化， Java 的泛型是做不到滴 • 由于 C++ 模板惰性编译的特性，这个擦除掉的表达式会在你实例化 AnimalWrapper 的时候自动对 T 进行编译。这意味着如果你给他一个不具有一个名为，然后他的右边其实是可以写一个表达式的，这个表达式实际上会在 main 函数之前执行！ • 全局变量的初始化会在 main 之前执行，这实际上是 C++ 标准的一部分，我们完全可以放心利用这一点来执行任意表达式。 • 对于 DLL 来说则是 DLL 加载时执行表达式。逗号表达式的妙用 • 那么这里是因为比较巧合， printf 的返回类型正好是 int 类型，所以可以用作初始化的表达该技巧可用于在程序退出时删除某些文件之类。 • 这就是小彭老师的静态初始化 (static-init) 大法。静态初始化用于批量注册函数 • 我们可以定义一个全局的函数表（右图中的 functab ），然后利用小彭老师的静态初始化大法，把这些函数在 main 之前就插入到全局的函数表。 • 这样 main 里面就可以仅通过函数名从 functab 访问到他们，从而 catFunc 和 dogFunc

0 码力 | 54 页 | 3.94 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

指令检测是否支持，如果在不支持 cmov 的 CPU 上使用会产生 SIGILL 错误。不过现在 64 位的 x86 CPU 都保证自带了 cmov 和 sse 拓展，所以不需要手动开启什么开关编译器就会自动生成利用 cmov 和 sse 指令的高效代码，这也是 x86-64 的优点之一。 https://www.felixcloutier.com/x86/cmovcc https://www.felixcloutier • 返回类型 int 占据 4 字节（ eax 寄存器就是 4 字节的） • 返回值都放 eax 寄存器（刚刚算得的就在 eax ，直接返回）无分支优化：从语法角度分析 • 刚刚其实是利用了 C 语言把 bool 类型的 true 当做 1 ， false 当做 0 的特性。 • (int)true == 1 (int)false == 0 • 例如： • if (x > 0) ，对于其他值应该怎么办？无分支优化套路：妙用加减乘 • if (x > 0) • return 42; • else • return 32; • 两边不是简单的 0 和 1 了，怎么办？其实可以利用加法和乘法： • return 32 + (x > 0) * 10; • 对于 x 大于 0 的情况， (x > 0) 变成 1 ，相当于 32 + 1 * 10 = 32 + 10 = 42 。

0 码力 | 47 页 | 8.45 MB | 1 年前
3
Zadig 面向开发者的云原生 DevOps 平台

项目间依赖复杂，环境管理难 • 交付版本依赖工单，发布风险高 • 公共资源 / 业务资源利用率低赋能多业务：一个平台解决了多异构项目的管理和规范团队高效协作：定义团队角色工作流模板，随时可用云上环境价值清晰呈现：为管理者提供全视角效能数据，赋能数字决策人工低效操作减少 80% 构建资源利用率提升 60% 业务资源利用率提升 30% 统一治理内部规范，开发自助上线；解放运维，工作重心向业务稳定性保项目两种场景做业务接入，把交付端实现统一管理起来，来满足研发所有业务的日常迭代需求。理想使用 K8s CRD 来实现对设备状态的定义和管理，同时设备端使用 Agent 来和云端做交互，利用 Zadig 能力完成车端和云端服务的迭代更新过程：主机方式接入资源设备 • 支持系统主机管理的同时支持了项目级别的主机管理，项目成员可以自己上下线资源设备 • 主机管理支持强大的探活机制

0 码力 | 59 页 | 81.43 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

GPU 编译器生成 GPU 指令码。最后再链接成同一个文件，看起来好像只编译了一次一样，实际上你的代码会被预处理很多次。 • 他在 GPU 编译模式下会定义 __CUDA_ARCH__ 这个宏，利用 #ifdef 判断该宏是否定义，就可以判断当前是否处于 GPU 模式，从而实现一个函数针对 GPU 和 CPU 生成两份源码级不同的代码。 __CUDA_ARCH__ 是个版本号 • 由于向上取整，这样会多出来一些线程，因此要在 kernel 内判断当前 i 是否超过了 n ，如果超过就要提前退出，防止越界。网格跨步循环：应用于线程和板块一起上的情况 • 网格跨步循环实际上本来是这样，利用扁平化的线程数量和线程编号实现动态大小。 • 同样，无论调用者指定每个板块多少线程（ blockDim ），总共多少板块（ gridDim ）。都能自动根据给定的 n 区间循环，不会越界 src 差不多。 atomicAdd ：会返回旧值（划重点！） • old = atomicAdd(dst, src) 其实相当于： • old = *dst; *dst += src; • 利用这一点可以实现往一个全局的数组 res 里追加数据的效果（ push_back ），其中 sum 起到了记录当前数组大小的作用。 • 因为返回的旧值就相当于在数组里“分配”到了一个位置一样，不会被别人占据。

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

妙用本用于指针的指令，尽管此时 rdi 和 rsi 并不是指针整数加常数乘整数：都可以被优化成 leal 因为这种线性变换在地址索引中很常见，所以被 x86 做成了单独一个指令。这里尽管不是地址，但同样可以利用 lea 指令简化生成的代码大小。 eax = rdi + rsi * 8 指针访问对象：线性访问地址 rsi = (int64_t)esi eax = *(int *)(rdi + rsi 又被称为矢量，而原始的一次只能处理 1 个 float 的方式，则称为标量。 • 在一定条件下，编译器能够把一个处理标量 float 的代码，转换成一个利用 SIMD 指令的，处理矢量 float 的代码，从而增强你程序的吞吐能力！ • 通常认为利用同时处理 4 个 float 的 SIMD 指令可以加速 4 倍。但是如果你的算法不适合 SIMD ，则可能加速达不到 4 倍；也有因为 SIMD

0 码力 | 108 页 | 9.47 MB | 1 年前
3

共 25 条前往

页

陈东利用 Rust 重塑移动应用开发 230618 C++高性性能高性能并行编程优化课件 07 15 06 03 Zadig 面向开发者原生 DevOps 平台 08 04

分类

语言

格式

陈东 - 利用Rust重塑移动应用开发-230618

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

C++高性能并行编程与优化 - 课件 - Zeno 中的现代 C++ 最佳实践

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

Zadig 面向开发者的云原生 DevOps 平台

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化