动手学深度学习 v2.0softmax运算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 3.4.5 小批量样本的矢量化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 3.4.6 损失函数 . . . 读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 3.5.2 读取小批量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113 3.5.3 整合所有组件 4.3 训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 7.5 批量规范化 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268 7.50 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112语言环境为例,介绍如何安装 PyTorch 框架及其它开发软件。 一般来说,开发环境安装分为 4 大步骤:安装 Python 解释器 Anaconda,安装 CUDA 加速库,安装 PyTorch 框架和安装常用编辑器。 1.6.1 Anaconda 安装 Python 解释器是让以 Python 语言编写的代码能够被 CPU 执行的桥梁,是 Python 语言 的核心软件。用户可以从 https://www 命令安装时,可能会出现下载速度缓慢甚至连接断开的情况,需要配置 国内的 pip 源,只需要在 pip install 命令后面带上“-i 源地址”参数即可。上述命令即使用 了清华大学的 pip 源。 1.6.4 常用编辑器安装 使用 Python 语言编写程序的方式非常多,可以使用 ipython 或者 ipython notebook 方式 交互式编写代码,也可以利用 Sublime Text、PyCharm (0.5,), (0.5,)) ])) # 创建 Dataloader 对象,方便以批量形式训练,随机打乱顺序 train_loader=torch.utils.data.DataLoader(train_db, batch_size=batch_size, sh uffle=True)0 码力 | 439 页 | 29.91 MB | 1 年前3
Keras: 基于 Python 的深度学习库categorical_crossentropy, optimizer=keras.optimizers.SGD(lr=0.01, momentum=0.9, nesterov=True)) 现在,你可以批量地在训练数据上进行迭代了: # x_train 和 y_train 是 Numpy 数组 -- 就像在 Scikit-Learn API 中一样。 model.fit(x_train, y_train json_string = model.to_json() # 保存为 YAML yaml_string = model.to_yaml() 生成的 JSON/YAML 文件是人类可读的,如果需要还可以手动编辑。 你可以从这些数据建立一个新的模型: # 从 JSON 重建模型: from keras.models import model_from_json model = model_from_json(json_string) 1])[0] 3.3.9 如何用 Keras 处理超过内存的数据集? 你可以使用 model.train_on_batch(x,y) 和 model.test_on_batch(x,y) 进行批量训练 与测试。请参阅 模型文档。 或 者, 你 可 以 编 写 一 个 生 成 批 处 理 训 练 数 据 的 生 成 器, 然 后 使 用 model.fit_generator(data_0 码力 | 257 页 | 1.19 MB | 1 年前3
机器学习课程-温州大学-06深度学习-优化算法黄海广 副教授 2 01 小批量梯度下降 本章目录 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 3 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 1.小批量梯度下降 4 小批量梯度下降 小批量梯度下降(Mini-Batch Gradient Gradient Descent) 梯度下降的每一步中,用到了一定批量的训练样本 每计算常数?次训练实例,便更新一次参数 ? ?=1(随机梯度下降,SGD) ?=m(批量梯度下降,BGD) ?=batch_size,通常是2的指 数倍,常见有32,64,128等。 (小批量梯度下降,MBGD) 参数更新 ??: = ?? − ? 1 ? ?=? ?+?−1 ℎ ?(?) − ?(?) ?? (?) (同步更新?? ,(j=0,1,...,n )) 5 小批量梯度下降 6 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 2.优化算法 7 伦敦温度的例子 days temperature ?1 = 40°F ?2 = 49°F ?3 = 45°F ... ?180 = 60°F0 码力 | 31 页 | 2.03 MB | 1 年前3
机器学习课程-温州大学-02深度学习-神经网络的编程基础学习率 步长 11 梯度下降的三种形式 批量梯度下降(Batch Gradient Descent,BGD) 梯度下降的每一步中,都用到了所有的训练样本 随机梯度下降(Stochastic Gradient Descent,SGD) 梯度下降的每一步中,用到一个样本,在每一次计算之后 便更新参数 ,而不需要首先将所有的训练集求和 小批量梯度下降(Mini-Batch Gradient Gradient Descent,MBGD) 梯度下降的每一步中,用到了一定批量的训练样本 12 梯度下降的三种形式 批量梯度下降(Batch Gradient Descent) 梯度下降的每一步中,都用到了所有的训练样本 参数更新 ??: = ?? − ? 1 ? ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ,(j=0,1,...,n )) 梯度 学习率 n )) 15 梯度下降的三种形式 小批量梯度下降(Mini-Batch Gradient Descent) 梯度下降的每一步中,用到了一定批量的训练样本 每计算常数?次训练实例,便更新一次参数 ? ?=1(随机梯度下降,SGD) ?=m(批量梯度下降,BGD) ?=batch_size,通常是2的指 数倍,常见有32,64,128等。 (小批量梯度下降,MBGD) 参数更新 ??:0 码力 | 27 页 | 1.54 MB | 1 年前3
机器学习课程-温州大学-02机器学习-回归学习率 步长 13 梯度下降的三种形式 批量梯度下降(Batch Gradient Descent,BGD) 梯度下降的每一步中,都用到了所有的训练样本 随机梯度下降(Stochastic Gradient Descent,SGD) 梯度下降的每一步中,用到一个样本,在每一次计算之后 便更新参数 ,而不需要首先将所有的训练集求和 小批量梯度下降(Mini-Batch Gradient Gradient Descent,MBGD) 梯度下降的每一步中,用到了一定批量的训练样本 14 梯度下降的三种形式 批量梯度下降(Batch Gradient Descent) 梯度下降的每一步中,都用到了所有的训练样本 参数更新 ??: = ?? − ? 1 ? ?=1 ? ℎ ?(?) − ?(?) ⋅ ?? (?) (同步更新?? ,(j=0,1,...,n )) 梯度 学习率 n )) 17 梯度下降的三种形式 小批量梯度下降(Mini-Batch Gradient Descent) 梯度下降的每一步中,用到了一定批量的训练样本 每计算常数?次训练实例,便更新一次参数 ? ?=1(随机梯度下降,SGD) ?=m(批量梯度下降,BGD) ?=batch_size,通常是2的指 数倍,常见有32,64,128等。 (小批量梯度下降,MBGD) 参数更新 ??:0 码力 | 33 页 | 1.50 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波分布式模型推理框架:WeiServing 异构CPU集群 kubernetes/ol-submit RPC服务框架 LR/GBDT DNN/DeepFM/W&D 负载均衡/统一版本管理/动态加载/批量化机制 特征映射 Embedding 数据处理 异构GPU集群 CNN 业务应用 模型服务 框架 排序模型服务 多媒体分析服务 自然语言分析服务 集群调度层 核心架构层 算法模型层 batching/TensorRT/MPS/SSE/AVX/Neon • operator fusion • 针对特定场景重写耗时算子 • 重构tensorflow计算引擎 • batching • 批量调度请求到GPU,增大并发和吞吐量 4 深度学习-分布式模型推理 • 深度特征效果对比 • 文本Embedding特征,相比于文本标签,相关指标提升约3+% • 基于word2vec、ber 损失函数误差最小: 梯度下降等迭代求解 模型训练 WeiFlow 控制台 实时计算 实时统计,…… 特征计算 微博特征 9点发布,带视频,北 京,奥运,时事新闻 ,高热度…… 批量计算 静态特征,批量统计 ,…… 控制中心 WeiIDE 数据计算 模型 Y=f(x1,x2……,xn) 模型服务 特征服务 微博机器学习平台 灰度系统 3 平台效果 • 成本/效率 建设平台(业务A)0 码力 | 36 页 | 16.69 MB | 1 年前3
pytorch 入门笔记-03- 神经网络将所有参数的梯度缓存清零,然后进行随机梯度的的反向传播: net.zero_grad() out.backward(torch.randn(1, 10)) note torch.nn 只支持小批量输入。整个 torch.nn 包都只支持小批量样本,而不支持单个样本。 例如,nn.Conv2d 接受一个4维的张量,每一维分别是 sSamples * nChannels * Height * Width( 本数 * 通道数0 码力 | 7 页 | 370.53 KB | 1 年前3
AI大模型千问 qwen 中文文档ray,以便支持分布式服务。 1.10. vLLM 19 Qwen 1.10.2 离线推理 Qwen2 代码支持的模型,例如 Qwen1.5,都被 vLLM 所支持。vLLM 最简单的使用方式是通过以下演示进行 离线批量推理。 from transformers import AutoTokenizer from vllm import LLM, SamplingParams # Initialize the tokenizer 问题。这也是为什么您发现一个大型语言模型服务总是占用大量内存的原因。 1.11 SkyPilot 1.11.1 SkyPilot 是什么 SkyPilot 是一个可以在任何云上运行 LLM、AI 应用以及批量任务的框架,旨在实现最大程度的成本节省、最 高的 GPU 可用性以及受管理的执行过程。其特性包括: • 通过跨区域和跨云充分利用多个资源池,以获得最佳的 GPU 可用性。 • 把费用降到最低——SkyPilot • NVIDIA A100 80GB • CUDA 12.3 • Pytorch 2.1.2+cu118 • Flash Attention 2.5.6 请注意,我们在评估时使用了尽可能小的批量大小(batch size 为 1)和最少的 GPU 数量。我们测试了在输入 长度分别为 1、6144、14336 和 30720 个 token 的情况下生成 2048 个 token 的速度和内存占用情况。0 码力 | 56 页 | 835.78 KB | 1 年前3
机器学习课程-温州大学-15深度学习-GAN特征匹配(feature matching) b.最小批量判断(minibatch discrimination) c.历史平均(historical averaging) d.单边标签平滑(one-sided label smoothing) e.虚拟批量正则(virtual batch normalization)0 码力 | 35 页 | 1.55 MB | 1 年前3
共 14 条
- 1
- 2













