Go on GPUChangkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Go on GPU Changkun Ou changkun.de/s/gogpu GopherChina 2023 Session “Foundational Toolchains” 2023 June 10 1 Changkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Agenda ● Basic knowledge for interacting with GPUs ● Accelerate Go programs using GPUs ● Challenges in Go when using outlooks 2 Changkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Agenda ● Basic knowledge for interacting with GPUs ○ Motivation ○ GPU Driver and Standards ○ Render and0 码力 | 57 页 | 4.62 MB | 1 年前3
Bridging the Gap: Writing Portable Programs for CPU and GPU1/66Bridging the Gap: Writing Portable Programs for CPU and GPU using CUDA Thomas Mejstrik Sebastian Woblistin 2/66Content 1 Motivation Audience etc.. Cuda crash course Quiz time 2 Patterns Oldschool Motivation Patterns The dark path Cuda proposal Thank you Why write programs for CPU and GPU Difference CPU/GPU Algorithms are designed differently Latency/Throughput Memory bandwidth Number of cores Motivation Patterns The dark path Cuda proposal Thank you Why write programs for CPU and GPU Difference CPU/GPU Why it makes sense? Library/Framework developers Embarrassingly parallel algorithms User0 码力 | 124 页 | 4.10 MB | 6 月前3
FFmpeg在Intel GPU上的硬件加速与优化FFmpeg在Intel GPU上的 硬件加速与优化 赵军 DCG/NPG @ Intel 介绍FFmpeg VAAPI • Media pipeline review • 何谓FFmpeg VAAPI • 为什么我们需要FFmpeg VAAPI • 当前状态 • 更进一步的计划 • 附录 典型的 media pipeline File Device Network Stream radeon, nouveau (?), freedreno, … • 废弃的 API bridges • vdpau—va bridge • powervr—va bridge • … Intel GPU简介 • Gfx Label • Gen3: Pinetrail (Pineview) • Gen4: G965 • Gen5: G4X, Ironlake (Piketon, Calpella) Kabylake • … • Intel® Processor Graphics • 3D 渲染(OpenGL & Vulkan) • Media • 显示与计算(CUDA & OpenCL) Intel GPU media 硬件编程模型 slice Ring buffer FFmpeg MSDK i965/iHD OS scheduler com1 KMD com2 com3 Batch0 码力 | 26 页 | 964.83 KB | 1 年前3
激活函数与GPU加速激活函数与GPU加速 主讲人:龙良曲 Leaky ReLU simply SELU softplus GPU accelerated 下一课时 测试 Thank You.0 码力 | 11 页 | 452.22 KB | 1 年前3
PyTorch Release NotesDeep Learning SDK accelerates widely-used deep learning frameworks such as PyTorch. PyTorch is a GPU-accelerated tensor computational framework with a Python front end. Functionality can be easily extended standard defined neural network layers, deep learning optimizers, data loading utilities, and multi-gpu, and multi-node support. Functions are executed immediately instead of enqueued in a static graph, see Preparing to use NVIDIA Containers Getting Started Guide. ‣ For non-DGX users, see NVIDIA ® GPU Cloud ™ (NGC) container registry installation documentation based on your platform. ‣ Ensure that0 码力 | 365 页 | 2.94 MB | 1 年前3
POCOAS in C++: A Portable Abstraction for Distributed Data StructuresCPU vFast GPU vvFast PCI Bus (or other fabric)GPUs as a First-Class Computing Resource CPU GPU PCI Bus (or other fabric) NIC - Historically, network comm. was CPU-centric 1) Direct GPU access to Infiniband allows GPU-to-GPU network transfers 2) Fast in-node fabrics like NVLink, Infinity Fabric allow very fast intra-node transfers DataGPUs as a First-Class Computing Resource CPU GPU PCI Bus (or fabric) NIC Data - Historically, network comm. was CPU-centric 1) Direct GPU access to Infiniband allows GPU-to-GPU network transfers 2) Fast in-node fabrics like NVLink, Infinity Fabric allow0 码力 | 128 页 | 2.03 MB | 6 月前3
动手学深度学习 v2.0208 5.5.2 加载和保存模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 5.6 GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 . . . . . . . . . . . . . . . . . 212 5.6.2 张量与GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 5.6.3 神经网络与GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.1 基于GPU的并行计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.2 并行计算与通信 . .0 码力 | 797 页 | 29.45 MB | 1 年前3
Taro: Task graph-based Asynchronous Programming Using C++ CoroutineB" : GPU operation 9Existing TGPSs on Heterogenous Computing - Challenge A C D B! B" 5 task_b = sched.emplace([](&){ 6 // CPU code; // GPU code; 7 }); // CPU thread blocks until GPU finishes B" : GPU operation 10Existing TGPSs on Heterogenous Computing - Challenge A C D B! B" 5 task_b = sched.emplace([](&){ 6 // CPU code; // GPU code; 7 }); // CPU thread blocks until GPU finishes operation B" : GPU operation Atomic execution per task 11Existing TGPSs on Heterogenous Computing - Challenge CPU A B! C Idle GPU D B" Runtime A C D B! B" Assume one CPU and one GPU B! : CPU operation0 码力 | 84 页 | 8.82 MB | 6 月前3
腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅可靠 资源管 理 CPU Memory Disk Space Network TX Network RX Disk IO (include buffer IO) GPU 背景:广告业务,8个集群,4个在线集群,4个离线集群, 分布在四个地区:北京、天津、成都、深圳。 需求:减少机器,降低成本。 手段:在线离线集群做合并。 问题:容器只能管理CPU和内存,不能对网络和磁盘IO做 自动迁移低负载Node上的Pod,完成缩容 • 一定数量Pod因资源不足pending时,自动扩容 能力扩展:灰度升级 • 在GPU集群中有一个长时间服务应用prd-cloud-str-003-p40- cluster1。该应用有25个实例,每个实例需要2个GPU卡。用 来提供图片识别的OCR服务。 • 当该服务要升级新的版本时,如果对所有实例停止,则会造 成服务中断;如果采用滚动升级,无法保证升级过程是否有 • 内置云盘基于cephRBD • 腾讯内部ceph版本,微信同款 能力扩展:GPU支持 分布式存储Ceph 海量小数据读写优化 不同用户配额管理 任务带盘迁移 智能拓扑感知 GPU卡拓扑感知 资源访问代价树决策 资源调度算法解决碎片化 异构GPU统一管理 多种调度策略,多租户管理GPU卡 与CPU核自动绑定 支持单机多卡和多机多卡 发表论文:《Gaia Scheduler:0 码力 | 28 页 | 3.92 MB | 1 年前3
OpenShift Container Platform 4.14 机器管理OpenShift Container Platform 实现中,它通过扩展计算机器 设置 API 来与 Machine API 集成。您可以使用以下方法使用集群自动扩展来管理集群: 为内核、节点、内存和 GPU 等资源设置集群范围的扩展限制 设置优先级,以便集群对 pod 和新节点进行优先排序,而在不太重要的 pod 时不会上线 设置扩展策略,以便您可以扩展节点,但不会缩减节点 机器健康 机器健康检查 值,不要为 Spot 实例设 置最大价格。 2.2.7. 将 GPU 节点添加到现有 OpenShift Container Platform 集群中 您可以复制并修改默认计算机器集配置,以便为 AWS EC2 云供应商创建启用了 GPU 的机器集和机器。 有关支持的实例类型的更多信息,请参阅以下 NVIDIA 文档: NVIDIA GPU Operator 社区支持列表 NVIDIA AI Enterprise MachineSet 定义并将结果输出到 JSON 文件。这将是启用了 GPU 的计算机器集定义的基础。 5. 编辑 JSON 文件,并对新 MachineSet 定义进行以下更改: 将 worker 替换为 gpu。这将是新计算机集的名称。 将新 MachineSet 定义的实例类型更改为 g4dn,其中包括 NVIDIA Tesla T4 GPU。要了解更 多有关 AWS g4dn 实例类型的信息,请参阅加速计算。0 码力 | 277 页 | 4.37 MB | 1 年前3
共 508 条
- 1
- 2
- 3
- 4
- 5
- 6
- 51













