GPU - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

激活函数与GPU加速

激活函数与GPU加速主讲人：龙良曲 Leaky ReLU simply SELU softplus GPU accelerated 下一课时测试 Thank You.

0 码力 | 11 页 | 452.22 KB | 1 年前
3
PyTorch Release Notes

Deep Learning SDK accelerates widely-used deep learning frameworks such as PyTorch. PyTorch is a GPU-accelerated tensor computational framework with a Python front end. Functionality can be easily extended standard defined neural network layers, deep learning optimizers, data loading utilities, and multi-gpu, and multi-node support. Functions are executed immediately instead of enqueued in a static graph, see Preparing to use NVIDIA Containers Getting Started Guide. ‣ For non-DGX users, see NVIDIA ® GPU Cloud ™ (NGC) container registry installation documentation based on your platform. ‣ Ensure that

0 码力 | 365 页 | 2.94 MB | 1 年前
3
动手学深度学习 v2.0

208 5.5.2 加载和保存模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 5.6 GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 . . . . . . . . . . . . . . . . . 212 5.6.2 张量与GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 5.6.3 神经网络与GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.1 基于GPU的并行计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.2 并行计算与通信 . .

0 码力 | 797 页 | 29.45 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� • 作业的统⼀管理、状态跟踪� 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标：� TensorFlow on Yarn设计 • 支持GPU亲和性调度（提⾼通信效率）� 8192M \ #每个worker需要的内存� --worker-cores 1 \ #每个worker需要的CPU核数� --worker-gpus 2 \ #每个worker需要的GPU卡数� --ps-num 2 \ #ps数量� --ps-memory 1024M \ #每个ps需要的内存� --ps-cores 1 \ #每个ps需要的CPU核数�

0 码力 | 32 页 | 4.06 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

. . . . . . . . . 6 2.4 Keras 支持多个后端引擎，并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持 . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3.3 如何在 GPU 上运行 Keras? . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3.4 如何在多 GPU 上运行 Keras 模型? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 20.9 multi_gpu_model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239 21 贡献 242 21

0 码力 | 257 页 | 1.19 MB | 1 年前
3
PyTorch OpenVINO 开发实战系列教程第一篇

是开放源代码的机器学习框架，目的是加速从研究原型到产品开发的过程。其 SDK 主要基于 Python 语言，而 Python 语言作为流行的人工智能开发语言一直很受研究者与开发者的欢迎。其模型训练支持CPU与GPU、支持分布式训练、云部署、针对深度学习特定领域有不同的丰富的扩展库。 1.1.1 Pytorch 历史 Pytorch 在 2016 年由 facebook 发布的开源机器学习（深度学习）框架，Pytorch (DataLoader)、自定义编程的可视化支持组件 tensorboard 相关类。 3）torch 开头的一些包与功能，主要包括支持模型导出功能的 torch.onnx 模块、优化器 torch.optim 模块、支持 GPU 训练 torch.cuda 模块，这些都是会经常用的。 4）此外本书当中还会重点关注的 torchvison 库中的一些常见模型库与功能函数，主要包括对象检测模块与模型库、图象数据增强与预处理模块等。语言版本与系统对应列表如下：表 -1（参考 Pytorch 官网与 Github）系统 Python3�6 Python3�7 Python3.8 Linux CPU/GPU 支持支持支持 Windows CPU/GPU 支持支持支持 Linux (aarch64) CPU 支持支持支持 Mac (CPU) 支持支持支持当前最新稳定版本是 Pytorch 1.9.0、长期支持版本是

0 码力 | 13 页 | 5.99 MB | 1 年前
3
AI大模型千问 qwen 中文文档

AVX、AVX2 和 AVX512 加速支持。此外，它还提供了 2、3、4、5、6 以及 8 位量化功能，以加快推理速度并减少内存占用。对于大于总 VRAM 容量的大规模模型，该库还支持 CPU+GPU 混合推理模式进行部分加速。本质上，llama.cpp 的用途在于运行 GGUF（由 GPT 生成的统一格式）模型。欲了解更多详情，请参阅官方 GitHub 仓库。以下我们将演示如何使用 llama from_pretrained(model_path) model = AutoGPTQForCausalLM.from_pretrained(model_path, quantize_config) 但是，如果你想使用多 GPU 来读取模型，你需要使用 max_memory 而不是 device_map。下面是一段示例代码： model = AutoGPTQForCausalLM.from_pretrained( model_path %(message)s", level=logging.INFO,␣ �→datefmt="%Y-%m-%d %H:%M:%S" ) model.quantize(data, cache_examples_on_gpu=False) 最后，保存量化模型： model.save_quantized(quant_path, use_safetensors=True) tokenizer.save_pretrained(quant_path)

0 码力 | 56 页 | 835.78 KB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

神经网络算法是一类基于神经网络从数据中学习的算法，它仍然属于机器学习的范畴。受限于计算能力和数据量，早期的神经网络层数较浅，一般在 1~4 层左右，网络表达能力有限。随着计算能力的提升和大数据时代的到来，高度并行化的 GPU 和海量数据让大规模神经网络的训练成为可能。 2006 年，Geoffrey Hinton 首次提出深度学习的概念。2012 年，8 层的深层神经网络 AlexNet 发布，并在图片识别竞赛 Krizhevsky 提出了 8 层的深层神经网络 AlexNet，它采用了 ReLU 激活函数，并使用 Dropout 技术来防止过拟合，同时抛弃了逐层预训练的方式，直接在两块 NVIDIA GTX580 GPU 上训练网络。AlexNet 在 ILSVRC-2012 图片识别比赛中获得了第一名的成绩，比第二名在 Top-5 错误率上降低了惊人的 10.9%。自 AlexNet 模型提出后，各种各样的算法模型相继被发表，其中有 GTX580 GPU 训练的 AlexNet 发布后，深度学习的真正潜力才得以发挥。传统的机器学习算法并不像神经网络这样对数据量和计算能力有严苛的要求，通常在 CPU 上串行训练即可得到满意结果。但是深度学习非常依赖并行加速计算设备，目前的大部分神经网络均使用 NVIDIA GPU 和 Google TPU 等并行加速芯片训练模型参数。如围棋程序 AlphaGo Zero 在 64 块 GPU 上从零开始训练了

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-03深度学习-PyTorch入门

查看Tensor是否存储在GPU上  tensor1.is_cuda  查看Tensor的梯度  tensor1.grad 1.Tensors张量的概念 7  Tensor在CPU和GPU之间转换，以及numpy之间的转换  CPU tensor转GPU tensor  cpu_tensor.cuda()  GPU tensor 转CPU tensor  gpu_tensor numpy转为CPU tensor  torch.from_numpy(numpy_test )  CPU tensor转为numpy数据  cpu_tensor.numpy()  注意：  GPU tensor不能直接转为numpy数组，必须先转到CPU tensor。  如果tensor是标量的话，可以直接使用 item() 函数（只能是标量）将值取出来：loss_output.item() array([1,2])建立数组； 4、numpy中没有x.type()的用法，只能使用 type(x)。 1、产生的数组类型为torch.Tensor； 2 、会将tensor放入GPU中进行加速运算（如果有GPU）； 3 、导入方式为 import torch ，后续通过 torch.tensor([1,2])或torch.Tensor([1,2])建立数组； 4、Te

0 码力 | 40 页 | 1.64 MB | 1 年前
3
PyTorch Tutorial

Quick to develop and test new ideas • Automatically compute gradients • Run it all efficiently on GPU to speed up computation Various Frameworks • Various Deep Learning Frameworks Source: CS231n slides •Visualise Tensor • Tensor? • PyTorch Tensors are just like numpy arrays, but they can run on GPU. • Examples: And more operations like: Indexing, slicing, reshape, transpose, cross product, matrix numpy • t.numpy() • Using GPU acceleration • t.to() • Sends to whatever device (cuda or cpu) • Fallback to cpu if gpu is unavailable: • torch.cuda.is_available() • Check cpu/gpu tensor OR numpy array

0 码力 | 38 页 | 4.09 MB | 1 年前
3

共 38 条前往

页

分类

语言

格式