FFmpeg在Intel GPU上的硬件加速与优化FFmpeg在Intel GPU上的 硬件加速与优化 赵军 DCG/NPG @ Intel 介绍FFmpeg VAAPI • Media pipeline review • 何谓FFmpeg VAAPI • 为什么我们需要FFmpeg VAAPI • 当前状态 • 更进一步的计划 • 附录 典型的 media pipeline File Device Network Stream radeon, nouveau (?), freedreno, … • 废弃的 API bridges • vdpau—va bridge • powervr—va bridge • … Intel GPU简介 • Gfx Label • Gen3: Pinetrail (Pineview) • Gen4: G965 • Gen5: G4X, Ironlake (Piketon, Calpella) Kabylake • … • Intel® Processor Graphics • 3D 渲染(OpenGL & Vulkan) • Media • 显示与计算(CUDA & OpenCL) Intel GPU media 硬件编程模型 slice Ring buffer FFmpeg MSDK i965/iHD OS scheduler com1 KMD com2 com3 Batch0 码力 | 26 页 | 964.83 KB | 1 年前3
激活函数与GPU加速激活函数与GPU加速 主讲人:龙良曲 Leaky ReLU simply SELU softplus GPU accelerated 下一课时 测试 Thank You.0 码力 | 11 页 | 452.22 KB | 1 年前3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程CUDA 开启的 GPU 编程 by 彭于斌( @archibate ) 往期录播: https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码: https://github.com/parallel101/course 前置条件 • 学过 C/C++ 语言编程。 • 理解 malloc/free 之类的概念。 • 熟悉 STL 中的容器、函数模板等。 做不到的。 编写一段在 GPU 上运行的代码 • 定义函数 kernel ,前面加上 __global__ 修 饰符,即可让他在 GPU 上执行。 • 不过调用 kernel 时,不能直接 kernel() ,而 是要用 kernel<<<1, 1>>>() 这样的三重尖括 号语法。为什么?这里面的两个 1 有什么用 ?稍后会说明。 • 运行以后,就会在 GPU 上执行 printf 了。 kernel 函数在 GPU 上执行,称为核 函数,用 __global__ 修饰的就是核函数。 没有反应?同步一下! • 然而如果直接编译运行刚刚那段代码,是不会打印出 Hello, world! 的。 • 这是因为 GPU 和 CPU 之间的通信,为了高效,是异 步的。也就是 CPU 调用 kernel<<<1, 1>>>() 后,并不 会立即在 GPU 上执行完毕,再返回。实际上只是把0 码力 | 142 页 | 13.52 MB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 腾讯云提高K8S集群资源利用率实践云+社区技术沙龙 腾讯云提高K8S集群资源利用率实践 庄鹏锐 腾讯云高级工程师 资源利用率分析 Node节点资源碎片 Pod Resource(requests)配置不合理 WorkLoad/HPA 副本数设置不合理 业务空闲时间 解决方案 Pod 压缩 Node 超卖 HPA VPA 动态 调度 碎片 处理 Pod 资源压缩 • MutatingAdmission0 码力 | 10 页 | 1.39 MB | 1 年前3
2022年美团技术年货 合辑TensorFlow 在美团外卖推荐场景的 GPU 训练优化实践 855 CompletableFuture 原理与实践 - 外卖商家端 API 的异步化 879 工程效能 CI/CD 之流水线引擎的建设实践 912 美团外卖搜索基于 Elasticsearch 的优化实践 933 美团图灵机器学习平台性能起飞的秘密(一) 953 提升资源利用率与保障服务质量,鱼与熊掌不可兼得? 971 SQL 分析与审计系统性能优化之旅 1048 数据库异常智能分析与诊断 1059 美团外卖广告智能算力的探索与实践(二) 1079 Linux 下跨语言调用 C++ 实践 1101 GPU 在外卖场景精排模型预估中的应用实践 1130 美团集群调度系统的云原生实践 1149 广告平台化的探索与实践 | 美团外卖广告工程实践专题连载 1161 数据 1193 Kafka AP,在 T4 上推理速度可达 1242 FPS;YOLOv6-s 在 COCO 上精度可达 43.1% AP,在 T4 上推理速度可达 520 FPS。在部署方面, YOLOv6 支 持 GPU(TensorRT)、CPU(OPENVINO)、ARM(MNN、TNN、 NCNN)等不同平台的部署,极大地简化工程部署时的适配工作。 目前,项目已开源至 Github,传送门:YOLOv6。欢迎有需要的小伙伴们0 码力 | 1356 页 | 45.90 MB | 1 年前3
Kubernetes全栈容器技术剖析有状态应用模型等能力; • 可纳管最新的Windows 1709系统,支持启动Windows Native容 器。 12 CCE支持GPU异构计算能力,帮助企业高效灵活应用深度学习服务 • 将旧的加速计算应用程序容器化,并部署 在较新的系统或者云环境中。 • 将特定的 GPU 资源分配给容器,以获得 更好的隔离效果和性能。 • 轻松地跨不同的环境共享应用程序、协同 工作和测试应用程序。 主流DL框架 Fuxi容器存储:实现有状态应用和分布式中间件容器化部署 15 全球首发云容器实例服务CCI :更快的弹性,更高的资源利用率 持续发布: 小时级->分钟级 弹性伸缩: 分钟级->秒级 应用交互性能提 升1~2倍 资源利用率提 升50% 挑战 收益 传统虚机应用上线慢 业务扩容时间长 同业务压力下资 源利用率低 传统虚机应用交 互性能低 • 应用可以基于容器镜像一站式自动化“构建发布上线” • 应用快速上线、扩容、升级,秒级弹性扩缩容 • 基于容器更细粒度共享,提升资源利用率 16 支持多租隔离、租户内部各用户之间的权限隔离,基于组织提供 镜像的访问权限管理 安全保障 组织级别隔离及镜像粒度权限控制,共同保障镜像安全 权限控制简单便捷 提供界面,分配镜像的访问权限 对接DevCloud、GitHub、GitLab,一键式完成从代码下载到 镜像构建的完整流程,并支持对接CCE完成镜像部署0 码力 | 26 页 | 3.29 MB | 1 年前3
openEuler 22.09 技术白皮书缘和嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本, 聚焦算力释放,持续提升资源利用率,打造全场景协同的数字基础设施操作系统。 2022 年 9 月 30 日,发布 openEuler 22.09 创新版本,充分释放多样性算力,持续深化全场景创新,打造极致迁移能力, 实现欧拉鸿蒙互联互通。 openEuler 全版本支持 x86、ARM、申威、龙芯、RISC-V 五种架构,并支持 Intel、AMD、兆芯等多款 CPU 芯片,支持多个 硬件厂商发布的多款整机型号、板卡型号,支持网卡、RAID、FC、GPU&AI、DPU、SSD、安全卡七种类型的板卡,具备良好的 兼容性。 支持的 CPU 架构如下: 支持的整机如下: 硬件类型 x86 ARM 申威 龙芯 RISC-V CPU Intel、AMD、 l、网讯、Intel Raid 华为、Avago、PMC 华为、Avago、PMC FC 华为、Marvell、Qlogic、Emulex 华为、Marvell、Qlogic、Emulex GPU&AI 华为、Nvidia、AMD、天数智芯、Intel 华为、Nvidia、AMD、天数智芯、Intel DPU 云豹智能 SSD 华为、三星、Intel 华为、三星、Intel、Dera 安全卡0 码力 | 13 页 | 1.39 MB | 1 年前3
openEuler 22.03 LTS SP2 技术白皮书同时发布边缘和嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本,聚焦算力释放,持续提升资源利用率,打造全场景协同的数字基础设施操作系统。 2022 年 9 月 30 日,发布 openEuler 22.09 创新版本,持续补齐全场景的支持。 2022 年 12 月 30 日,发布 openEuler Intel IceLake/ Sapphire Rapids、AMD EPYC Milan /Genoa 等芯片系列,支持多个硬件厂商发布的多款整机型号、板卡型号, 支持网卡、RAID、FC、GPU&AI、DPU、SSD、安全卡七种类型的板卡,具备良好的兼容性。 全版本支持的硬件型号可在兼容性网站查询:https://www.openeuler.org/zh/compatibility/ 支持的 华为、Mellanox、Intel、星云智联、云芯智联 Raid Avago、云芯智联 Avago、云芯智联 FC Marvell、Qlogic、Emulex Marvell、Qlogic、Emulex GPU&AI Nvidia Nvidia SSD 华为 华为 硬件支持 运行环境 07 openEuler 22.03 LTS SP2 技术白皮书 运行环境 运行环境 08 openEuler0 码力 | 48 页 | 5.62 MB | 1 年前3
Volcano加速金融行业大数据分析平台云原生化改造的应用实践提供作业队列,队列资源预留、队列容量管理、多租户的动态资源共享。 4. 性能优化和异构资源管理 调度性能优化,并结合 Kubernetes 提供扩展性、吞吐、网络、运行时的 多项优化,异构硬件支持x86, Arm, GPU, 昇腾,昆仑等。 Volcano Global Kubernetes Volcano-controller Volcano-scheduler Kubernetes Volcano-controller Kube-apiserver Job/JobFlow Queue vc-controller vc-scheduler vsub kubectl Node NUMA GPU Node NUMA GPU … VolcanoGlobal 架构 多中心 低成本 无绑定 VG Scheduler ETCD Karmada Controllers K8s API Server DAP平台运行项目450+ Volcano大幅度提高大数据平台资源利用率 Kubernetes + YARN Kubernetes + Volcano 静态划分资源池 统一资源池 Kubernetes + YARN Kubernetes + Volcano 集群低负载场景 K8s资源池空闲,大数据业务无法使用 大数据业务可以使用集群整体空闲资源, 提高整体资源利用率 集群高负载场景 通过静态划分的资源池保证大数据业务和通用0 码力 | 18 页 | 1.82 MB | 1 年前3
openEuler 23.09 技术白皮书同时发布边缘和嵌入式版本。 2022 年 3 月 30 日,基于统一的 5.10 内核,发布面向服务器、云计算、边缘计算、嵌入式的全场景 openEuler 22.03 LTS 版本,聚焦算力释放,持续提升资源利用率,打造全场景协同的数字基础设施操作系统。 2022 年 9 月 30 日,发布 openEuler 22.09 创新版本,持续补齐全场景的支持。 2022 年 12 月 30 日,发布 openEuler Intel IceLake/ Sapphire Rapids、AMD EPYC Milan /Genoa 等芯片系列,支持多个硬件厂商发布的多款整机型号、板卡型号, 支持网卡、RAID、FC、GPU&AI、DPU、SSD、安全卡七种类型的板卡,具备良好的兼容性。 全版本支持的硬件型号可在兼容性网站查询:https://www.openeuler.org/zh/compatibility/。 X86 ARM 网卡 华为、Mellanox、Intel 华为、Mellanox、Intel Raid Avago Avago FC Marvell、Emulex Marvell、Emulex GPU & AI Nvidia Nvidia SSD 华为 华为 硬件支持 运行环境 07 openEuler 23.09 技术白皮书 运行环境 运行环境 08 openEuler 23.090 码力 | 52 页 | 5.25 MB | 1 年前3
共 327 条
- 1
- 2
- 3
- 4
- 5
- 6
- 33













