阿里云上深度学习建模实践-程孟力图像视频算法库 Bert TextInput Optim izer 性能优越: 分布式存储 分布式查询 功能完备: GSL/负采样 主流图算法 异构图 (user/item/attribute) 动态图 标准化: Standard Libraries Graph-Learn: 分布式图算法库 标准化: Standard Solutions Continuous Optimization: PAI-Rec – 推荐引擎 BE召回/Hologres hot x2i vec 排序 粗排 精排 重排 MaxCompute Datahub 离线特征 样本构造 实时特征 Flink 训练数据 推荐日志 模型发布 在线流程 离线流程 智能推荐解决方案 > PAI-REC 推荐引擎 PAI-REC 推荐引擎 多路召回 曝光/状态过滤 粗排/精排 拉取配置 监控报警 Prometheus Grafana 读取metric 消息队列(datahub/kafka) PAI-REC平台 自动化降级 负载均衡 灰度发布 超时控制 平台支持 日志SLS 在线存储 Hologres/OTS BE Redis 读取数据 向量引擎 BE/Hologres/Faiss/Milvus 向量检索 冷启动召 回 冷启动排0 码力 | 40 页 | 8.51 MB | 1 年前3
动手学深度学习 v2.0流程,所以我 们不得不自行组装。我们在 16.5节 中详细描述了我们的方法。我们选择GitHub来共享源代码并允许编辑,选 择Jupyter记事本来混合代码、公式和文本,选择Sphinx作为渲染引擎来生成多个输出,并为论坛提供讨论。 虽然我们的体系尚不完善,但这些选择在相互冲突的问题之间提供了一个很好的妥协。我们相信,这可能是 第一本使用这种集成工作流程出版的书。 1 http://distill 零编写的。比如,现在开发人员要编写一个程序 来管理网上商城。经过思考,开发人员可能提出如下一个解决方案:首先,用户通过Web浏览器(或移动应 用程序)与应用程序进行交互;紧接着,应用程序与数据库引擎进行交互,以保存交易历史记录并跟踪每个 用户的动态;其中,这个应用程序的核心——“业务逻辑”,详细说明了应用程序在各种情况下进行的操作。 为了完善业务逻辑,开发人员必须细致地考虑应用程序所有可能遇到的边界情况,并为这些边界情况设计合 每个元素分配相应的相关性分数,然后检索评级最高的元素。 PageRank15,谷歌搜索引擎背后最初的秘密武器就是这种评分系统的早期例子,但它的奇特之处在于它不依 赖于实际的查询。在这里,他们依靠一个简单的相关性过滤来识别一组相关条目,然后根据PageRank对包含 查询条件的结果进行排序。如今,搜索引擎使用机器学习和用户行为模型来获取网页相关性得分,很多学术 会议也致力于这一主题。 推荐系统0 码力 | 797 页 | 29.45 MB | 1 年前3
Keras: 基于 Python 的深度学习库. . . . . . . . . . . . . . . . . . . . . . . 6 2.4 Keras 支持多个后端引擎,并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持 目录中,你会找到更多高级模型:基于记忆网络的问答系统、基于 栈式 LSTM 的文本生成等等。 KERAS: 基于 PYTHON 的深度学习库 3 1.4 安装指引 在安装 Keras 之前,请安装以下后端引擎之一:TensorFlow,Theano,或者 CNTK。我们 推荐 TensorFlow 后端。 • TensorFlow 安装指引。 • Theano 安装指引。 • CNTK 安装指引。 网页应用后端(比如 Flask app)中。 • 在 JVM,通过 SkyMind 提供的 DL4J 模型导入。 • 在 Raspberry Pi 树莓派上。 2.4 Keras 支持多个后端引擎,并且不会将你锁定到一个生态系统中 你的 Keras 模型可以基于不同的深度学习后端开发。重要的是,任何仅利用内置层构建的 Keras 模型,都可以在所有这些后端中移植:用一种后端训练模型,再将它载入另一种后端中(比0 码力 | 257 页 | 1.19 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波• PS&MPI:DistributionStrategy API,统一分布式语义,解耦分布式架构与模型训练框架 • 使用FP16通信,使用FP32做计算,带宽压力降低一倍 • IO优化 • 多线程样本并发读取,样本读取与计算PIPELINE,实现计算与IO的overlap 4 深度学习-深度学习模型训练 • 分布式模型推理框架:WeiServing 异构CPU集群 kubernetes/ol-submit 算法模型层 4 深度学习-分布式模型推理 • 推理性能优化 • 减少计算量: operator fusion/XLA/TVM/prune/float16/quantization • 加快计算速度: batching/TensorRT/MPS/SSE/AVX/Neon • operator fusion • 针对特定场景重写耗时算子 • 重构tensorflow计算引擎 • batching batching • 批量调度请求到GPU,增大并发和吞吐量 4 深度学习-分布式模型推理 • 深度特征效果对比 • 文本Embedding特征,相比于文本标签,相关指标提升约3+% • 基于word2vec、bert等生成embedding向量,提高了语义编码的准确性,降低了训练成本 • 指标提升主要来源于Embedding特征保留了更多原始信息,避免了标签带来的信息损失 • User/Item0 码力 | 36 页 | 16.69 MB | 1 年前3
超大规模深度学习在美团的应用-余建平提供系统的平台化工具,为用户提供易用的界面操作; MLX模型能力 MLX平台架构 MLX平台架构 • 基于Worker + PS架构搭建 • Worker 模型计算引擎(Engine) 计算图框架(Graph) • 模型计算引擎Engine 模型结构处理 与PS通信交换模型参数 计算图的计算 • 计算图框架Graph 计算逻辑抽象op,通过op组合形成模型结构 操作扩展 模型训练框架 • 模型可变计算路径 运行阶段 计算图裁剪 模型训练框架 • 应用场景——离线预计算 模型召回,ANN检索 粗排模型,降低线上计算量 • 分布式Sharding 模型分片存储,支持超大规模模型 数据并行计算,加速Optimizer计算 • 低频特征过滤 Counting Bloom Filter 概率方式 • 模型数据通路 PS的参数放置策略 • Ps分布式分片的均衡,避免分片大小不一致 NN网络矩阵按行切分,解决请求包不均衡问题 特征按照Hash方式分布式存储 • 模型并行调超参 grid search random search PS的多模型训练 • 提高内存使用效率 model group内共享特征key的存储 • 超大规模模型 -> 高扇出的分布式PS • 长尾效应:单个0 码力 | 41 页 | 5.96 MB | 1 年前3
AI大模型千问 qwen 中文文档请 注 意, 原 Qwen 仓 库 中 的 旧 方 法 chat() 现 在 已 被 generate() 方 法 替 代。 这 里 使 用 了 apply_chat_template() 函数将消息转换为模型能够理解的格式。其中的 add_generation_prompt 参数用于在输入中添加生成提示,该提示指向 <|im_start|>assistant\n 。尤其需要注意的是,我们 遵循先前实践,对 apply_chat_template(msg, tokenize=False, add_generation_ �→prompt=False) data.append(text.strip()) 其中每个 msg 是一个典型的聊天消息,如下所示: [ {"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": install vLLM>=0.3.0 ,但如果你正在使用 CUDA 11.8,请查看官方文档中的注意事项以获取有关安装的帮助(链接 )。我们也建议你通过 pip install ray 安装 ray,以便支持分布式服务。 1.10. vLLM 19 Qwen 1.10.2 离线推理 Qwen2 代码支持的模型,例如 Qwen1.5,都被 vLLM 所支持。vLLM 最简单的使用方式是通过以下演示进行 离线批量推理。0 码力 | 56 页 | 835.78 KB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱覆盖腾讯PCG全部业务的推荐场景,⽀持腾讯 IEG,CSIG,QQ⾳乐,阅⽂等业务的部分推 荐场景 � 袁镱 博⼠,专家⼯程师 � 研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Embedding以稀疏的⽅式表达信息 ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) 训练框架—基于参数服务器架构的分布式训练框架 TB级模型 分⽚ 存储/更新 百TB数据 分⽚训练 Feature 1: 动态空间 Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到 参数按需0 码力 | 22 页 | 6.76 MB | 1 年前3
谭国富:深度学习在图像审核的应用图标形式:水印、二维码、条形码、logo等。并可根 据业务需求定制。 Ø 基于团队自研的深度识别引擎,核心算法与基础模型 经过多轮优化,可以准确快速地识别图片中所包含的 各类图标 l 烟雾,吸烟识别 Ø 基于视频直播监管需求, 提供吸烟,烟雾,涉嫌吸毒 等场景的识别能力 SACC2017 深度学习介绍 深度网络训练选择 加快训练 - 分布式训练系统 图像海量数据的积累 02 深度学习技术介绍 加快计算 client 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器 内容审核解决方案 SACC2017 针对直播 – 视频鉴黄解决方案 • 在部署了DeepEye视频直播鉴黄解决方案后,系 统对直播房间的视频流按指定的时间间隔(用户 可配置)进行截图,通过鉴黄引擎给该图片进行 鉴别,并将可疑图片和对应的房间信息回调给开 发者,开发者可以根据返回的结果信息优先给审 核人员进行审核,进行封停等进一步处理。经过 审核没有问题的内容再呈现倒观看者的屏幕。 SACC20170 码力 | 32 页 | 5.17 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒首次中国公司在ImageNet竞赛 夺冠,视频分析技术登顶 人脸识别大幅提高精度,商汤科 技首次突破人类肉眼识别准确率 ,领先于Facebook Google5000万美元招入 Hinton,发布基于深度学习的 搜索引擎 Microsoft 深度学习驱动的语音 识别大幅提升精度 软银孙正义设立1000亿美元人 工智能基金,320亿美元收购芯 片架构公司ARM 2016.7 公司简介 历史业绩 领先技术 共同发展 AI+金融 AI+智慧城市 AI+芯片 AI+无人驾驶 AI+智能手机 AI+医疗图像 AI+智慧城市:以智能安防场景为例 特征向量 AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检 索 l处 构建百万以上级别的对象缓存,需要 仔细优化 百倍慢于等价的C实现! 回顾 • 智慧城市中,在智能安防领域机器视觉有着爆发式应用 • 我们使用基于深度学习的机器视觉技术,构建了超大规模的自我演化 的分布式智能系统 • 在构建这个规模的系统中,我们广泛使用了Kubernetes、Go等流行技 术,“那些年踩过的坑”0 码力 | 23 页 | 9.26 MB | 1 年前3
亚马逊AWSAI Services Overviewfor Autonomous Driving Clarifai • Computer Vision APIs AWS 上的 AI 应用 • Pinterest Lens • Netflix 推荐引擎 数千名员工致力于人工智能领域 发现& 搜索 执行 &物流 现有产品的增强 定义新的产品分类 将机器学习拓 展更广领域 Amazon 的人工智能应用 在Amazon 最初的人 工智能应用 (1995) 可以帮助客户把人工智能应用于每个应 用程序的核心&业务之中吗? Amazon AI 构建于深度学习之上的智能服务 Amazon AI: 新的深度学习服务 生活化的语音服务 Polly Lex 对话引擎 Rekognition 图像分析 深度学习框架 MXNet, TensorFlow, Theano, Caffe, Torch 为客户模型定制的 深度学习框架 人工智能 的托管的 API服务 扩展了物理安全控制的 应用领域 • 客人对VIP 设施的使用 • 在线考试以及民意调查 时的用户验证 人脸识别 通过针对存储的面部向量的集合找到输入面部图像的最接近 的匹配来识别图像中的人 • 社交应用、消息类应用 中加入朋友标签 • 协助找到始终人口 • 确定可以访问敏感区域 的员工 • 在历史和媒体的档案中 找到“名人” 应用案例:公共安全领域的智能应用 人工智能的时代已经到来 Amazon0 码力 | 56 页 | 4.97 MB | 1 年前3
共 23 条
- 1
- 2
- 3













