GPU - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

FFmpeg在Intel GPU上的硬件加速与优化

FFmpeg在Intel GPU上的硬件加速与优化赵军 DCG/NPG @ Intel 介绍FFmpeg VAAPI • Media pipeline review • 何谓FFmpeg VAAPI • 为什么我们需要FFmpeg VAAPI • 当前状态 • 更进一步的计划 • 附录典型的 media pipeline File Device Network Stream radeon, nouveau (?), freedreno, … • 废弃的 API bridges • vdpau—va bridge • powervr—va bridge • … Intel GPU简介 • Gfx Label • Gen3: Pinetrail (Pineview) • Gen4: G965 • Gen5: G4X, Ironlake (Piketon, Calpella) Kabylake • … • Intel® Processor Graphics • 3D 渲染(OpenGL & Vulkan) • Media • 显示与计算（CUDA & OpenCL） Intel GPU media 硬件编程模型 slice Ring buffer FFmpeg MSDK i965/iHD OS scheduler com1 KMD com2 com3 Batch

0 码力 | 26 页 | 964.83 KB | 1 年前
3
激活函数与GPU加速

激活函数与GPU加速主讲人：龙良曲 Leaky ReLU simply SELU softplus GPU accelerated 下一课时测试 Thank You.

0 码力 | 11 页 | 452.22 KB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

CUDA 开启的 GPU 编程 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 前置条件 • 学过 C/C++ 语言编程。 • 理解 malloc/free 之类的概念。 • 熟悉 STL 中的容器、函数模板等。做不到的。编写一段在 GPU 上运行的代码 • 定义函数 kernel ，前面加上 __global__ 修饰符，即可让他在 GPU 上执行。 • 不过调用 kernel 时，不能直接 kernel() ，而是要用 kernel<<<1, 1>>>() 这样的三重尖括号语法。为什么？这里面的两个 1 有什么用？稍后会说明。 • 运行以后，就会在 GPU 上执行 printf 了。 kernel 函数在 GPU 上执行，称为核函数，用 __global__ 修饰的就是核函数。没有反应？同步一下！ • 然而如果直接编译运行刚刚那段代码，是不会打印出 Hello, world! 的。 • 这是因为 GPU 和 CPU 之间的通信，为了高效，是异步的。也就是 CPU 调用 kernel<<<1, 1>>>() 后，并不会立即在 GPU 上执行完毕，再返回。实际上只是把

0 码力 | 142 页 | 13.52 MB | 1 年前
3
动手学深度学习 v2.0

208 5.5.2 加载和保存模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 5.6 GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 . . . . . . . . . . . . . . . . . 212 5.6.2 张量与GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 5.6.3 神经网络与GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.1 基于GPU的并行计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.2 并行计算与通信 . .

0 码力 | 797 页 | 29.45 MB | 1 年前
3
腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅

可靠资源管理 CPU Memory Disk Space Network TX Network RX Disk IO (include buffer IO) GPU 背景：广告业务，8个集群，4个在线集群，4个离线集群，分布在四个地区：北京、天津、成都、深圳。需求：减少机器，降低成本。手段：在线离线集群做合并。问题：容器只能管理CPU和内存，不能对网络和磁盘IO做自动迁移低负载Node上的Pod，完成缩容 • 一定数量Pod因资源不足pending时，自动扩容能力扩展：灰度升级 • 在GPU集群中有一个长时间服务应用prd-cloud-str-003-p40- cluster1。该应用有25个实例，每个实例需要2个GPU卡。用来提供图片识别的OCR服务。 • 当该服务要升级新的版本时，如果对所有实例停止，则会造成服务中断；如果采用滚动升级，无法保证升级过程是否有 • 内置云盘基于cephRBD • 腾讯内部ceph版本，微信同款能力扩展：GPU支持分布式存储Ceph 海量小数据读写优化不同用户配额管理任务带盘迁移智能拓扑感知 GPU卡拓扑感知资源访问代价树决策资源调度算法解决碎片化异构GPU统一管理多种调度策略，多租户管理GPU卡与CPU核自动绑定支持单机多卡和多机多卡发表论文：《Gaia Scheduler:

0 码力 | 28 页 | 3.92 MB | 1 年前
3
OpenShift Container Platform 4.14 机器管理

OpenShift Container Platform 实现中，它通过扩展计算机器设置 API 来与 Machine API 集成。您可以使用以下方法使用集群自动扩展来管理集群：为内核、节点、内存和 GPU 等资源设置集群范围的扩展限制设置优先级，以便集群对 pod 和新节点进行优先排序，而在不太重要的 pod 时不会上线设置扩展策略，以便您可以扩展节点，但不会缩减节点机器健康机器健康检查值，不要为 Spot 实例设置最大价格。 2.2.7. 将 GPU 节点添加到现有 OpenShift Container Platform 集群中您可以复制并修改默认计算机器集配置，以便为 AWS EC2 云供应商创建启用了 GPU 的机器集和机器。有关支持的实例类型的更多信息，请参阅以下 NVIDIA 文档： NVIDIA GPU Operator 社区支持列表 NVIDIA AI Enterprise MachineSet 定义并将结果输出到 JSON 文件。这将是启用了 GPU 的计算机器集定义的基础。 5. 编辑 JSON 文件，并对新 MachineSet 定义进行以下更改：将 worker 替换为 gpu。这将是新计算机集的名称。将新 MachineSet 定义的实例类型更改为 g4dn，其中包括 NVIDIA Tesla T4 GPU。要了解更多有关 AWS g4dn 实例类型的信息，请参阅加速计算。

0 码力 | 277 页 | 4.37 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� • 作业的统⼀管理、状态跟踪� 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标：� TensorFlow on Yarn设计 • 支持GPU亲和性调度（提⾼通信效率）� 8192M \ #每个worker需要的内存� --worker-cores 1 \ #每个worker需要的CPU核数� --worker-gpus 2 \ #每个worker需要的GPU卡数� --ps-num 2 \ #ps数量� --ps-memory 1024M \ #每个ps需要的内存� --ps-cores 1 \ #每个ps需要的CPU核数�

0 码力 | 32 页 | 4.06 MB | 1 年前
3
2024 中国开源开发者报告

MiniMax 等。  其次是由 TogetherAI、Groq、Fireworks、Replicate、硅基流动等组成的 GPU 推理集群服务提供商，它们处理扩展与缩减等技术难题，并在基本计算费用基础上收取额外费用，从而让应用公司无需承担构建和管理 GPU 推理集群的高昂成本，而是可以直接利用抽象化的 AI 基础设施服务。  第三类是传统的云计算平台，例如亚马逊的 Amazon Vertex AI 等，允许应用开发者轻松部署和使用标准化或定制化的 AI 模型，并通过 API 接口调用这些模型。  最后一类是本地推理，SGLang、vLLM、TensorRT-LLM 在生产级 GPU 服务负载中表现出色，受到许多有本地托管模型需求的应用开发者的欢迎，此外，Ollama 和 LM Studio 也是在个人计算机上运行模型的优选方案。 62 / 111 除模型层面外，应软件，例如：微控制处理器（MCU）会运行实时操作系统或者直接运行某个特定程序；中央处理器（CPU）往往会运行 Windows、Linux 等复杂操作系统作为底座支撑整个软件栈；图形处理器（GPU）一般不加载操作系统而是直接运行图形图像处理程序，神经网络处理器（NPU）则直接运行深度学习相关程序。处理器芯片设计是一项很复杂的任务，整个过程犹如一座冰山。冰山水面上是用户或者大众看到

0 码力 | 111 页 | 11.44 MB | 8 月前
3
2022年美团技术年货合辑

目录 < v Replication（上）：常见复制模型 & 分布式系统挑战 792 Replication（下）：事务，一致性与共识 818 TensorFlow 在美团外卖推荐场景的 GPU 训练优化实践 855 CompletableFuture 原理与实践 - 外卖商家端 API 的异步化 879 工程效能 CI/CD 之流水线引擎的建设实践 912 美团外卖搜索基于 Elasticsearch SQL 分析与审计系统性能优化之旅 1048 数据库异常智能分析与诊断 1059 美团外卖广告智能算力的探索与实践（二） 1079 Linux 下跨语言调用 C++ 实践 1101 GPU 在外卖场景精排模型预估中的应用实践 1130 美团集群调度系统的云原生实践 1149 广告平台化的探索与实践 | 美团外卖广告工程实践专题连载 1161 数据 1193 Kafka AP，在 T4 上推理速度可达 1242 FPS；YOLOv6-s 在 COCO 上精度可达 43.1% AP，在 T4 上推理速度可达 520 FPS。在部署方面， YOLOv6 支持 GPU（TensorRT）、CPU（OPENVINO）、ARM（MNN、TNN、 NCNN）等不同平台的部署，极大地简化工程部署时的适配工作。目前，项目已开源至 Github，传送门：YOLOv6。欢迎有需要的小伙伴们

0 码力 | 1356 页 | 45.90 MB | 1 年前
3
PyTorch OpenVINO 开发实战系列教程第一篇

是开放源代码的机器学习框架，目的是加速从研究原型到产品开发的过程。其 SDK 主要基于 Python 语言，而 Python 语言作为流行的人工智能开发语言一直很受研究者与开发者的欢迎。其模型训练支持CPU与GPU、支持分布式训练、云部署、针对深度学习特定领域有不同的丰富的扩展库。 1.1.1 Pytorch 历史 Pytorch 在 2016 年由 facebook 发布的开源机器学习（深度学习）框架，Pytorch (DataLoader)、自定义编程的可视化支持组件 tensorboard 相关类。 3）torch 开头的一些包与功能，主要包括支持模型导出功能的 torch.onnx 模块、优化器 torch.optim 模块、支持 GPU 训练 torch.cuda 模块，这些都是会经常用的。 4）此外本书当中还会重点关注的 torchvison 库中的一些常见模型库与功能函数，主要包括对象检测模块与模型库、图象数据增强与预处理模块等。语言版本与系统对应列表如下：表 -1（参考 Pytorch 官网与 Github）系统 Python3�6 Python3�7 Python3.8 Linux CPU/GPU 支持支持支持 Windows CPU/GPU 支持支持支持 Linux (aarch64) CPU 支持支持支持 Mac (CPU) 支持支持支持当前最新稳定版本是 Pytorch 1.9.0、长期支持版本是

0 码力 | 13 页 | 5.99 MB | 1 年前
3

共 223 条前往

页

分类

语言

格式

FFmpeg在Intel GPU上的硬件加速与优化

激活函数与GPU加速

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

动手学深度学习 v2.0

腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅

OpenShift Container Platform 4.14 机器管理

TensorFlow on Yarn：深度学习遇上大数据

2024 中国开源开发者报告

2022年美团技术年货合辑

PyTorch OpenVINO 开发实战系列教程第一篇