K8S集群资源 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

微博在线机器学习和深度学习实践-黄波

模型快照：基于ps-scheduler的周期模型版本探测与保存，模型稀疏化分片存储 • 冷备容灾：基于checkpoint机制(Local模式&Remote模式)，实现参数服务的高可用，支持基于模型的异构集群迁移，支持集群扩缩容 • 性能优化 • 通信优化：数据请求(PULL&PUSH)聚合，同模型多矩阵并发，锁粒度优化，性能提升5-10倍 • 缓存优化：使用堆外内存与LRU过期机制，解决GC引起的性能损耗，性能提升3-5倍在线机器学习-模型服务部署 • 模型评估 • 模型上线部署前指标评估 • 周期使用验证样本进行点击率预估 • 待部署模型与线上模型进行指标对比，评估是否满足上线条件 • 一键部署 • 基于K8S的deployment模式，一键端口分配与模型服务部署 • 基于ZK的服务发现，一键进行流量灰度与发布 • 性能优化 • 通信优化：特征请求与模型计算单元化，在线样本格式压缩 • 计算优化：基于SSE／AVX NLP 图片视频 VGG Yolo inception resnet GRU LSTM Wide&Deep DeepFM Deep Cross Network Spark 超参数资源算法 BERT 配置 Tensorflow 4 深度学习-深度学习模型训练 • 通信优化 • PS：BSP/SSP/ASP多种通信模式支持 • MPI&RingAllreduce：Horovod，使用

0 码力 | 36 页 | 16.69 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 • 集群资源的管理（目前支持CPU、内存，需要扩展GPU 资源管理）� 资源管理）� • 作业的统⼀管理、状态跟踪� • 资源组（Schedule Pool）的划分� • 作业进程的资源隔离� Yarn能解决什么问题：� TensorFlow on Yarn设计 • 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� download.thread.nums=10 #其他参数设置� 提交脚本示例（分布式版本）：� TensorFlow on Yarn设计 Yarn首页作业信息：� 作业类型集群GPU资源概况作业分配到的GPU数量 TensorFlow on Yarn设计 TensorFlow作业AM页面：� Container所在的机器� 分配到的GPU物理设备号� tensorboard

0 码力 | 32 页 | 4.06 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

被命中，只有部分参数被⽤到参数按需获取/更新 Storage 异步训练流⽔线和多级存储：提升性能，降低内存成本 � 问题： � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数就绪，Parameter Server难以利⽤速度慢的存储介质样本读取样本解析参数拉取训练参数更新查询Sparse Table 查询Dense 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤（>10000请求/秒） � 模型有多个版本 � 原有在线分布式存储系统的问题 � 主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本困难 >15亿key/秒近千台只读版本写版本 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台分布式Serving集群副本1 副本2 Group 1 Group N 副本1 副本2 推理节点 SDK MB级别DNN部分 Sparse Hotkey TB级别Embedding部分全量模型，TB级，低峰期（Cos存储）增量模型，GB级，20分钟（Cos存储）实时模型，KB级，秒（Kafka）分布式 Serving集群推理节点分布式 Serving集群推理节点

0 码力 | 22 页 | 6.76 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

2 WK Job 2 WK Job 3 监控/启停任务调度/资源管理监控上报 cephfs存储集群本地文件系统数据模型/日志 client 管理数据提取模型、查看日志提交/管理任务用户 docker.oa.co m 自动拉取镜像 Redis 冷数据热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练，不可避免遇到由于硬件/网络波动引起的异常 • 监控任务运行状况，当任务发生异常时，选择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化，快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容，最大化资源使用率 • 支持不同计算框架 • 调度与任务松耦合，用户可以灵活定义任务 • 支持配置 docker

0 码力 | 32 页 | 5.17 MB | 1 年前
3
搜狗深度学习技术在广告推荐领域的应用

 加大数据量，提升模型收益方案  MxNet支持多机多卡, 使用成本低  构建多机多卡 GPU集群，优化训练效率，提高加速比现状和计划现状  已经实现LR+DNN融合模型的上线，收益较好  受限于线上计算资源，模型复杂度有限  线下训练流程有依赖，繁琐易出错计划  线上服务拆分，独立出深度学习计算模块，采用低功耗GPU加速 

0 码力 | 22 页 | 1.60 MB | 1 年前
3
动手学深度学习 v2.0

能够有效训练模型、克服数值计算缺陷并最大限度地利用现有硬件的工程方法。同时教授表述问题所需的批判性思维技能、解决问题所需的数学知识，以及实现这些解决方案所需的软件工具，这是一个巨大的挑战。在我们开始写这本书的时候，没有资源能够同时满足一些条件：（1）是最新的；（2）涵盖了现代机器学习的所有领域，技术深度丰富；（3）在一本引人入胜的教科书中，人们可以在实践教程中找到干净的可运行代码，并从中穿插高质量的阐述。我们什么做出某些算法决策的讨论。虽然一些互动资源已经零星地出现以解决特定主题。例如，在网站Distill1上发布的引人入胜的博客帖子或个人博客，但它们仅覆盖深度学习中的选定主题，并且通常缺乏相关代码。另一方面，虽然已经出现了几本教科书，其中最著名的是 (Goodfellow et al., 2016)（中文名《深度学习》），它对深度学习背后的概念进行了全面的调查，但这些资源并没有将这些概念的描述与这些概念的代码实现结合概念的代码实现结合起来。有时会让读者对如何实现它们一无所知。此外，太多的资源隐藏在商业课程提供商的付费壁垒后面。我们着手创建的资源可以：（1）每个人都可以免费获得；（2）提供足够的技术深度，为真正成为一名应用机器学习科学家提供起步；（3）包括可运行的代码，向读者展示如何解决实践中的问题；（4）允许我们和社区的快速更新;（5）由一个论坛2作为补充，用于技术细节的互动讨论和回答问题。

0 码力 | 797 页 | 29.45 MB | 1 年前
3
《TensorFlow 2项目进阶实战》1-基础理论篇：TensorFlow 2设计思想

与移动互联网的结合 TensorFlow 与企业服务的结合 - 腾讯互娱来源：《案例分享 | 腾讯互娱基于 CPU 环境的分布式 YOLOv3 实现》魂斗罗游戏中识别角色 K8s Pod K8s Pod K8s Pod Horovod(CPU) on Kubernetes model TensorFlow Serving Keras 模型训练 • DataGenerator • 随机读取

0 码力 | 40 页 | 9.01 MB | 1 年前
3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒

TensorCore/int8 *示意图来自互联网 Kubernetes在异构系统调度中的挑战 • Kubernetes版本发布快，新特性更新频繁，对异构调度的支持不断加强；但配套设施落后（e.g. Spark on K8s, GitlabCI) • 容器系统调用栈深，需要仔细验证操作系统，内核及异构设备驱动的兼容性 • Kubernetes对NUMA、异构计算、存储设备的调度能力待加强 1.6 nvidia/gpu

0 码力 | 23 页 | 9.26 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

GPU 数据并行的支持。 • 优步的 Horovod 对 Keras 模型有第一流的支持。 • Keras 模型可以被转换为 TensorFlow 估计器并在 Google Cloud 的 GPU 集群上训练。 • Keras 可以在 Spark（通过 CERN 的 Dist-Keras）和 Elephas 上运行。为什么选择 KERAS？ 7 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持即使你不贡献 Keras 源代码，如果你有一个简洁而强大的 Keras 应用，请考虑将它添加到我们的样例集合中。现有的例子展示惯用的 Keras 代码：确保保持自己的脚本具有相同的风格。 � 更多科研资源，请扫码关注微信公众号： � 如诸君认为本文档对您的使用和研究略有帮助，不妨扫码请笔者喝杯咖啡，以鼓励作者进一步完善文档内容，提高文档质量。

0 码力 | 257 页 | 1.19 MB | 1 年前
3
机器学习课程-温州大学-10机器学习-聚类

主要算法 K-means、密度聚类、层次聚类聚类主要应用市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预测…… 7 1.无监督学习方法概述聚类案例 1.医疗医生可以使用聚类算法来发现疾病。以甲状腺疾病为例。当我们对包含甲状腺疾病和非

0 码力 | 48 页 | 2.59 MB | 1 年前
3

共 22 条前往

页

分类

语言

格式

微博在线机器学习和深度学习实践-黄波

TensorFlow on Yarn：深度学习遇上大数据

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

谭国富：深度学习在图像审核的应用

搜狗深度学习技术在广告推荐领域的应用

动手学深度学习 v2.0

《TensorFlow 2项目进阶实战》1-基础理论篇：TensorFlow 2设计思想

QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒

Keras: 基于 Python 的深度学习库

机器学习课程-温州大学-10机器学习-聚类