内存占用过高 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

JVM 内存模型

JVM 内存模型 Heap Method Area Runtime Constant Pool Thread Thread Thread PC Register JVM Stack Native Method Stack PC Register JVM Stack Native Method Stack PC Register JVM Stack Native Method

0 码力 | 1 页 | 48.42 KB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

现代 C++ 入门： RAII 内存管理 by 彭于斌（ github@archibate ）往期录播： https://space.bilibili.com/263032155 PPT 和代码： https://github.com/parallel101/course 高性能并行编程与优化 - 课程大纲 • 分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： nv 将多个逻辑上相关的变量包装成一个类因此 C++ 的 vector 将他俩打包起来，避免程序员犯错封装：不变性比如当我要设置数组大小为 4 时，不能只 nv = 4 还要重新分配数组内存，从而修改数组起始地址 v 常遇到：当需要修改一个成员时，其他也成员需要被修改，否则出错这种情况出现时，就意味着你需要把成员变量的读写封装为成员函数不变性：请勿滥用封装 • 仅当出现“修改一个成员时，其他也成员要

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 与 Intel TBB 7.被忽视的访存优化：内存带宽与 cpu 缓存机制 8.GPU 专题： wrap 调度，共享内存， barrier 9.并行算法实战： r8 到 r15 是 64 位 x86 新增的寄存器，给了汇编程序员更大的空间，降低了编译器处理寄存器翻车（ register spill ）的压力。 • 因此 64 位比 32 位机器相比，除了内存突破 4GB 限制外，也有一定性能优势。 8 位， 16 位， 32 位， 64 位版本 al, ax, eax, rax r15b, r15w, r15d, r15 AT&T 汇编语言 GCC SIMD 让访问内存更有规律，节约了指令解码和指令缓存的压力等原因，出现加速超过 4 倍的情况。第 1 章：化简编译器优化：代数化简编译器优化：常量折叠编译器优化：举个例子编译器优化：我毕竟不是万能的结论：尽量避免代码复杂化，避免使用会造成 new/delete 的容器。简单的代码，比什么优化手段都强。造成 new/delete 的容器：我是说，内存分配在堆上的容器

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

串行的一系列指令并行化。为了理解为什么需要流水线，我们先反过来，假设没有流水线，会有什么坏处。 • 例如，右边你今天早上的任务清单。 • 请问你这些任务总共需要多少时间？任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股为什么需要流水线存器来指令解码单元才开始继续工作，很低效。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手看比站 15 分钟眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股洗脸烧开水刷牙看比站吃饭拉粑粑 5 10 5 15 30 20 为什么需要流水线 • 更高效的办法是，观察每个任务都占用哪些资源，所占用资源不冲突的可以同时进行，节省时间。 • 例如洗脸需要眼睛嘴巴手，刷牙需要嘴巴手，那么洗脸和刷牙不能同时进行。但是烧开水只需要占用煤气灶，和洗脸刷牙不冲突，所以可以一边烧开水一边洗脸刷牙。 • 所以让小彭老师来优化的话，可以只需要 5 + 5 + 10 + 20 = 40 分钟，比你快一倍多。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手烧开水 10 分钟煤气灶刷牙 5 分钟嘴巴，手看比站

0 码力 | 47 页 | 8.45 MB | 1 年前
3
谈谈MYSQL那点事

查询查询 事务管理事务管理 数据库设计数据库设计 数据分布数据分布 网络网络 操作系统操作系统 硬件硬件  使用好的硬件，更快的硬盘、大内存、多核使用好的硬件，更快的硬盘、大内存、多核 CPU CPU ，专业的，专业的存储服务器（存储服务器（ NAS NAS 、、 SAN SAN ））  设计合理架构，如果设计合理架构，如果 MySQL 不同引擎进行不同定制性配置性配置  针对不同的应用情况进行合理配置针对不同的应用情况进行合理配置  针对针对 my.cnf my.cnf 进行配置，后面设置是针对内存为进行配置，后面设置是针对内存为 16G 16G 的服务器进行的合理设置的服务器进行的合理设置服务优化服务优化 MySQL MySQL 配置原则配置原则服务优化服务优化公共选项公共选项 query_cache_size 0 ( 不打开） 128M 查询缓存区的最大长度，按照当前需求，一倍一倍增加，本选项比较重要 sort_buffer_size 512K 128M 每个线程的排序缓存大小，一般按照内存可以设置为 2M 以上，推荐是 16M ，该选项对排序 order by ， group by 起作用 record_buffer 128K 64M 每个进行一个顺序扫描的线程为其扫描的每张表分配这个大小的一个缓冲区，可以设置

0 码力 | 38 页 | 2.04 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

课程 PPT 和代码： https://github.com/parallel101/course 本课涵盖：稀疏矩阵、 unordered_map 、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、 CFD 仿真、深度学习编程人员第 0 章：稀疏矩阵稠密数组存储矩阵用 foreach 包装一下枚举的过程改用 map 来存储分离 read/write/create node) ，而这里的 unordered_map 就是充当根节点 (root node) 。图片解释稀疏的好处传统稠密二维数组无边界稀疏分块哈希表此外，还是按需分配内存，即使被写入的部分奇形怪状也不会浪费内存。这些被写入的部分被称为激活元素 (active element) ，反之则是未激活 (inactive) 。这就是稀疏的好处，按需分配，自动扩容。分块则是利用了我们存储的（空指针）图片解释：指针数组的稀疏这样指针表中为 null 的部分，稠密叶节点的内存就省掉了垃圾回收 (garbage-collect) • 如果是运行的仿真，则液体可能会移动到别的地方去。这时液体曾经存在过的地方也仍然处于激活状态，可以每隔若干帧及时释放掉这些不用的指针块以节省内存。 unordered_map 作为顶层，指针作为中层，稠密数组作为底层 • 实现稀疏的方法有：

0 码力 | 102 页 | 9.50 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

倍去计算的。字还被用于表示内存地址 • 字的长度除了决定一次处理的整数大小之外，还决定了能访问的内存地址的范围。 • 这是因为内存是一维排列的，假如内存容量是 65536 字节，那所谓的内存地址实际上就是一个从 0 到 65535 范围的整数，也就是两个字节组成的字。 • 处理器去读写内存的时候靠的是寄存器提供的地址，因此寄存器的大小（也就是字的大小）决定了他能读写的内存大小，例如： • 由于 65536 字节（ 64 KB ）的内存。 • 由于 32 位计算机的寄存器只能存储 32 位，他只能访问 4 GB 的内存。 • 由于 64 位计算机的寄存器能存储 64 位，他理论上能访问 16777216 TB 的内存！ • 因此，如果你的电脑内存超过了 4 GB ，那肯定是 32 位电脑不用说了。 • 而 64 位计算机理论上能访问如此大量的内存，虽然目前看来是用不到。知识拓展位的整数，实际上的内存地址并没有 64 位。 • 实际上地址的高 16 位始终和第 48 位一致（符号扩展），也就是虚拟地址空间只有 48 位。 • 而经过 MMU 映射后实际给内存的地址只有 39 位，因此如今的 x64 架构实际上只能访问 512GB 内存，如果插了超过这个大小的内存条他也不会认出来。 • 此外， 16 位计算机实际上能通过额外的段寄存器访问到 20 位的内存地址（ 1MB

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

com/parallel101/course 为什么往 int 数组里赋值 1 比赋值 0 慢一倍？第 1 章：内存带宽 cpu-bound 与 memory-bound • 通常来说，并行只能加速计算的部分，不能加速内存读写的部分。 • 因此，对 fill 这种没有任何计算量，纯粹只有访存的循环体，并行没有加速效果。称为内存瓶颈（ memory-bound ）。 • 而 sine 这种内部需要泰勒展开来计算，每次迭代计算量很大的这种内部需要泰勒展开来计算，每次迭代计算量很大的循环体，并行才有较好的加速效果。称为计算瓶颈（ cpu- bound ）。 • 并行能减轻计算瓶颈，但不减轻内存瓶颈，故后者是优化的重点。浮点加法的计算量 • 冷知识：并行地给浮点数组每个元素做一次加法反而更慢。 • 因为一次浮点加法的计算量和访存的超高延迟相比实在太少了。 • 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 64 字节）所花费的时间。 • 根据计算： 125/64*4≈8 • 即从主内存读取一次 float 花费 8 个 cycle ，符合小彭老师的经验公式。 • “right” 和“ wrong” 指的是分支预测是否成功。多少计算量才算多？ • 看右边的 func ，够复杂了吧？也只是勉勉强强超过一点内存的延迟了，但在 6 个物理核心上并行加速后，还是变成 mem-bound 了。

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

表达式知多少 6. 通过实战案例来学习 STL 算法库 7. C++ 标准输入输出流 & 字符串格式化 8. traits 技术，用户自定义迭代器与算法 9. allocator ，内存管理与对象生命周期 ASCII 码第 1 章计算机如何表达字符 https://zh.wikipedia.org/wiki/ASCII 计算机如何表达字符 • 众所周知，计算机只能处理二进制有一系列成员函数，例如 find/replace/substr…… • string 可以通过 s.c_str() 重新转换回古板的 const char * 。 • string 在离开作用域时自动释放内存 (RAII) ，不用手动 free 。 C++ 字符串和 C 字符串的不同 • C 语言字符串是单独一个 char *ptr ，自动以 ‘ \0’ 结尾。 • C++ 字符串是 string 指向 ’ h’ ，只保留前三个字符 • string(“hello”, 12) 会得到 “ hello\0[ 数据删除 ]” • ↑ len 为 12 ， ptr 指向 ’ h’ ，超出了 6 个字符，内存读越界（出错） • string(“hello\0world!”, 12) 会得到 “ hello\0world!” • ↑ len 为 12 ， ptr 指向 ’ h’ ，字符串内可以包含 ‘ \0’

0 码力 | 162 页 | 40.20 MB | 1 年前
3
夏歌-使用Rust构建LLM应用

Pytorch 、 TensorFlow Lite • WASI-NN 2.0 比如 Langchain Rewrite it in Rust • 笨重 • 资源占用多 • 大部分时间是在等待 • 轻量级 • 资源占用量小 • 节省大量计算资源 Python 与 Docker Rust 与 WebAssembly 为什么要用 Rust ？ Rewrite it in Rust

0 码力 | 36 页 | 38.31 MB | 1 年前
3

共 23 条前往

页

fig java memory arch pptx C++高性性能高性能并行编程优化课件 02 04 MySQL 10 12 07 15 夏歌使用 Rust 构建 LLM 应用

分类

语言

格式