 动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537 12.7 参数服务器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 12.7.1 . . . . . . . . . . . . . . . . . 758 16.4 选择服务器和GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 758 16.4.1 选择服务器 . . . . . . . . . . . . . . . . . . . . . . . . 建、训练和测试深度学习模型。然而,有时我们希望保 存训练的模型,以备将来在各种环境中使用(比如在部署中进行预测)。此外,当运行一个耗时较长的训练过 程时,最佳的做法是定期保存中间结果,以确保在服务器电源被不小心断掉时,我们不会损失几天的计算结 果。因此,现在是时候学习如何加载和存储权重向量和整个模型了。 5.5.1 加载和保存张量 对于单个张量,我们可以直接调用load和save函数分别0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 537 12.7 参数服务器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 540 12.7.1 . . . . . . . . . . . . . . . . . 758 16.4 选择服务器和GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 758 16.4.1 选择服务器 . . . . . . . . . . . . . . . . . . . . . . . . 建、训练和测试深度学习模型。然而,有时我们希望保 存训练的模型,以备将来在各种环境中使用(比如在部署中进行预测)。此外,当运行一个耗时较长的训练过 程时,最佳的做法是定期保存中间结果,以确保在服务器电源被不小心断掉时,我们不会损失几天的计算结 果。因此,现在是时候学习如何加载和存储权重向量和整个模型了。 5.5.1 加载和保存张量 对于单个张量,我们可以直接调用load和save函数分别0 码力 | 797 页 | 29.45 MB | 1 年前3
 微博在线机器学习和深度学习实践-黄波Serving PS Traing PS Traing Model System Predict Score Sample Data worker worker worker 3 在线机器学习-参数服务器 serving serving serving server server server server server worker worker worker PSscheduler PSserver HA Fault tolerance checkpoint Local HDFS Param Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度,千亿参数 • 模型版本 • 多模型多版本:多组实验并行执行,提高实验迭代效率 • 在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE OD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(ByRow&ByKey),基于row进行矩阵压缩存储,参数内存占用减少90% 3 在线机器学习-参数服务器 模型验证 离线训练 实时训练 模型训练 模型部署 在线服务 离线验证 在线发布 在线验证 在线一致性/ 模型稳定性/… 一键打包 端口探测 蓝绿部署/灰度发布 AUC/准确率/0 码力 | 36 页 | 16.69 MB | 1 年前3 微博在线机器学习和深度学习实践-黄波Serving PS Traing PS Traing Model System Predict Score Sample Data worker worker worker 3 在线机器学习-参数服务器 serving serving serving server server server server server worker worker worker PSscheduler PSserver HA Fault tolerance checkpoint Local HDFS Param Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度,千亿参数 • 模型版本 • 多模型多版本:多组实验并行执行,提高实验迭代效率 • 在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE OD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(ByRow&ByKey),基于row进行矩阵压缩存储,参数内存占用减少90% 3 在线机器学习-参数服务器 模型验证 离线训练 实时训练 模型训练 模型部署 在线服务 离线验证 在线发布 在线验证 在线一致性/ 模型稳定性/… 一键打包 端口探测 蓝绿部署/灰度发布 AUC/准确率/0 码力 | 36 页 | 16.69 MB | 1 年前3
 李东亮:云端图像技术的深度学习模型与应用n 峰值时会达到1500 QPS SACC2017 检测-人脸检测/人形检测 场景多样、人脸小、位置边缘 本页图片均来自公开摄像头 SACC2017 检测-人脸检测/人形检测 手机 服务器 可缩小尺寸 240P 720P CPU ARM(千元机) E5-2630 时间 50ms 120ms GPU 2-5ms(K40) SACC2017 图像技术的三个核心难点>>小、快、准 传输、存储压力 多任务串联 GPU服务框架-图像特点 通用计算(Caffe/Tensorflow/Mxnet) SACC2017 GPU服务框架 人形检测 人脸识别 100台-> 10台服务器 300QPS/台(4*k40) 轮询结果 SACC2017 SACC20170 码力 | 26 页 | 3.69 MB | 1 年前3 李东亮:云端图像技术的深度学习模型与应用n 峰值时会达到1500 QPS SACC2017 检测-人脸检测/人形检测 场景多样、人脸小、位置边缘 本页图片均来自公开摄像头 SACC2017 检测-人脸检测/人形检测 手机 服务器 可缩小尺寸 240P 720P CPU ARM(千元机) E5-2630 时间 50ms 120ms GPU 2-5ms(K40) SACC2017 图像技术的三个核心难点>>小、快、准 传输、存储压力 多任务串联 GPU服务框架-图像特点 通用计算(Caffe/Tensorflow/Mxnet) SACC2017 GPU服务框架 人形检测 人脸识别 100台-> 10台服务器 300QPS/台(4*k40) 轮询结果 SACC2017 SACC20170 码力 | 26 页 | 3.69 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版202112Origin 每加 仑燃 油英 里 气缸数 排量 马力 重量 加速度 型号 年份 产地 Auto MPG 数据集一共记录了 398 项数据,我们从 UCI 服务器下载并读取数据集到 DataFrame 对象中,代码如下: import tensorflow as tf from tensorflow import keras import pandas # 测试网络的输出 x = tf.random.normal([4,224,224,3]) out = resnet(x) # 获得子网络的输出 out.shape 上述代码自动从服务器下载模型结构和在 ImageNet 数据集上预训练好的网络参数。通过设 置 include_top 参数为 False,可以选择去掉 ResNet50 最后一层,此时网络的输出特征图大 小为[?, 7 终端运行 tensorboard --logdir path 指定 Web 后端监控的文件目录 path,即可打开 Web 后端监控进 程,如图 8.2 所示: 图 8.2 启动 Web 服务器 此时打开浏览器,并输入网址 http://localhost:6006 (也可以通过 IP 地址远程访问,具体 端口号可能会变动,可查看命令提示) 即可监控网络训练进度。TensorBoard0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版202112Origin 每加 仑燃 油英 里 气缸数 排量 马力 重量 加速度 型号 年份 产地 Auto MPG 数据集一共记录了 398 项数据,我们从 UCI 服务器下载并读取数据集到 DataFrame 对象中,代码如下: import tensorflow as tf from tensorflow import keras import pandas # 测试网络的输出 x = tf.random.normal([4,224,224,3]) out = resnet(x) # 获得子网络的输出 out.shape 上述代码自动从服务器下载模型结构和在 ImageNet 数据集上预训练好的网络参数。通过设 置 include_top 参数为 False,可以选择去掉 ResNet50 最后一层,此时网络的输出特征图大 小为[?, 7 终端运行 tensorboard --logdir path 指定 Web 后端监控的文件目录 path,即可打开 Web 后端监控进 程,如图 8.2 所示: 图 8.2 启动 Web 服务器 此时打开浏览器,并输入网址 http://localhost:6006 (也可以通过 IP 地址远程访问,具体 端口号可能会变动,可查看命令提示) 即可监控网络训练进度。TensorBoard0 码力 | 439 页 | 29.91 MB | 1 年前3
 TensorFlow on Yarn:深度学习遇上大数据⼿动指定机器很繁琐� • 端⼝冲突� • 机器负载不均� TensorFlow使用现状及痛点 • ⼿动分发训练样本� • ⼿动拉取训练模型� TensorFlow使用现状及痛点 • 多⼈多服务器使用混乱,计算资源如何划分?� • 没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死�0 码力 | 32 页 | 4.06 MB | 1 年前3 TensorFlow on Yarn:深度学习遇上大数据⼿动指定机器很繁琐� • 端⼝冲突� • 机器负载不均� TensorFlow使用现状及痛点 • ⼿动分发训练样本� • ⼿动拉取训练模型� TensorFlow使用现状及痛点 • 多⼈多服务器使用混乱,计算资源如何划分?� • 没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死�0 码力 | 32 页 | 4.06 MB | 1 年前3
 《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别Turing test to tell Computers and Humans Apart,简称CAPTCHA),俗称验证码,是一种区分用户是 计算机或人的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一 个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。 由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。 一种常用0 码力 | 51 页 | 2.73 MB | 1 年前3 《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别Turing test to tell Computers and Humans Apart,简称CAPTCHA),俗称验证码,是一种区分用户是 计算机或人的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一 个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。 由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。 一种常用0 码力 | 51 页 | 2.73 MB | 1 年前3
 从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) 训练框架—基于参数服务器架构的分布式训练框架 TB级模型 分⽚ 存储/更新 百TB数据 分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到0 码力 | 22 页 | 6.76 MB | 1 年前3 从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) 训练框架—基于参数服务器架构的分布式训练框架 TB级模型 分⽚ 存储/更新 百TB数据 分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到0 码力 | 22 页 | 6.76 MB | 1 年前3
 Qcon北京2018-《文本智能处理的深度学习技术》-陈运文0, 0, 0, 0, 0, 0, 0, 0, 0, … ] [ 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, … ] 服务器 [ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, … ] [ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0 码力 | 46 页 | 25.61 MB | 1 年前3 Qcon北京2018-《文本智能处理的深度学习技术》-陈运文0, 0, 0, 0, 0, 0, 0, 0, 0, … ] [ 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, … ] 服务器 [ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, … ] [ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,0 码力 | 46 页 | 25.61 MB | 1 年前3
 Keras: 基于 Python 的深度学习库Uber, Yelp, Instacart, Zocdoc, Square 等众多网站上使用。它尤其受以深度学习作为产品核心的创业公司的欢迎。 Keras 也是深度学习研究人员的最爱,在上载到预印本服务器 arXiv.org 的科学论文中被提 及的次数位居第二。Keras 还被大型科学组织的研究人员采用,特别是 CERN 和 NASA。 2.3 Keras 可以轻松将模型转化为产品 与任何其他深度学习框架相比,你的 field='data', headers=None) 将事件数据流到服务器的回调函数。 需要 requests 库。事件被默认发送到 root + '/publish/epoch/end/'。采用 HTTP POST ,其中的 data 参数是以 JSON 编码的事件数据字典。 参数 • root: 字符串;目标服务器的根地址。 • path: 字符串;相对于 root 的路径,事件数据被送达的地址。0 码力 | 257 页 | 1.19 MB | 1 年前3 Keras: 基于 Python 的深度学习库Uber, Yelp, Instacart, Zocdoc, Square 等众多网站上使用。它尤其受以深度学习作为产品核心的创业公司的欢迎。 Keras 也是深度学习研究人员的最爱,在上载到预印本服务器 arXiv.org 的科学论文中被提 及的次数位居第二。Keras 还被大型科学组织的研究人员采用,特别是 CERN 和 NASA。 2.3 Keras 可以轻松将模型转化为产品 与任何其他深度学习框架相比,你的 field='data', headers=None) 将事件数据流到服务器的回调函数。 需要 requests 库。事件被默认发送到 root + '/publish/epoch/end/'。采用 HTTP POST ,其中的 data 参数是以 JSON 编码的事件数据字典。 参数 • root: 字符串;目标服务器的根地址。 • path: 字符串;相对于 root 的路径,事件数据被送达的地址。0 码力 | 257 页 | 1.19 MB | 1 年前3
 PyTorch OpenVINO 开发实战系列教程第一篇torchtext、针对计算机视觉的 torchvision、针对语音处理 的 torchaudio,这些库支持快速模型训练与演示应用,可以 帮助开发者快速搭建原型演示。此外在移动端支持、模型部署 的压缩、量化、服务器端云化部署、推理端 SDK 支持等方面 Pytorch 也在不断的演化改进。 在操作系统与 SDK 支持方面,Pytorch 从最初的单纯支持 Python 语言到如今支持 Python/C++/Java0 码力 | 13 页 | 5.99 MB | 1 年前3 PyTorch OpenVINO 开发实战系列教程第一篇torchtext、针对计算机视觉的 torchvision、针对语音处理 的 torchaudio,这些库支持快速模型训练与演示应用,可以 帮助开发者快速搭建原型演示。此外在移动端支持、模型部署 的压缩、量化、服务器端云化部署、推理端 SDK 支持等方面 Pytorch 也在不断的演化改进。 在操作系统与 SDK 支持方面,Pytorch 从最初的单纯支持 Python 语言到如今支持 Python/C++/Java0 码力 | 13 页 | 5.99 MB | 1 年前3
共 11 条
- 1
- 2













