超大规模深度学习在美团的应用-余建平超大规模深度学习在美团的应用 余建平 美团点评用户平台研究员 自我介绍 自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习 工程相关的工作,加入美团后,负责超大规模机器学习系统,从无到有搭建起支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 • VC维理论 描述模型的学习能力:VC维越大模型越复杂,学习能力越强 机器学习能力 = 数据 + 特征 + 模型 • 数据 海量数据: 美团的亿级用户、千万级POI • 特征 大规模离散特征 >0 码力 | 41 页 | 5.96 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱IEG,CSIG,QQ⾳乐,阅⽂等业务的部分推 荐场景 � 袁镱 博⼠,专家⼯程师 � 研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 Embedding以稀疏的⽅式表达信息 ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 训练端⽣成⾼频参数集 独⽴通道上线 降低请求⽑刺 Feature 2.1: 短时间内只 有部分参数被⽤到 Feature 2.2 Hotkey变化慢 ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习0 码力 | 22 页 | 6.76 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112它仍然属于机器学习的范 畴。受限于计算能力和数据量,早期的神经网络层数较浅,一般在 1~4 层左右,网络表达 能力有限。随着计算能力的提升和大数据时代的到来,高度并行化的 GPU 和海量数据让大 规模神经网络的训练成为可能。 2006 年,Geoffrey Hinton 首次提出深度学习的概念。2012 年,8 层的深层神经网络 AlexNet 发布,并在图片识别竞赛中取得了巨大的性能提升,此后几十层、数百层、甚至 1.3 深度学习特点 与传统的机器学习算法、浅层神经网络相比,现代的深度学习算法通常具有如下显著 特点。 1.3.1 数据量 早期的机器学习算法比较简单,容易快速训练,需要的数据集规模也比较小,如 1936 年由英国统计学家 Ronald Fisher 收集整理的鸢尾花卉数据集 Iris 共包含 3 个类别花卉,每 个类别 50 个样本。随着计算机技术的发展,设计的算法越来越复杂,对数据量的需求也随 等业务 驱动的。 预览版202112 1.3 深度学习特点 9 图 1.12 NVIDIA GPU FLOPS 趋势(数据来自 NVIDIA) 1.3.3 网络规模 早期的感知机模型和多层神经网络层数只有 1 层或者 2~4 层,网络参数量也在数万左 右。随着深度学习的兴起和计算能力的提升,AlexNet(8 层)、VGG16(16 层)、 GoogLeNet(220 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.0感谢中英文草稿的数百位撰稿人。他们帮助改进了内容并提供了宝贵的反馈。感谢Anirudh Dagar和唐源将 部分较早版本的MXNet实现分别改编为PyTorch和TensorFlow实现。感谢百度团队将较新的PyTorch实现改 编为PaddlePaddle实现。感谢张帅将更新的LaTeX样式集成进PDF文件的编译。 特别地,我们要感谢这份中文稿的每一位撰稿人,是他们的无私奉献让这本书变得更好。他们的GitHub 大约2010年开始,那些在计算上看起来不可行的神经网络算法变得热门起来,实际上是以下两点导致的:其 一,随着互联网的公司的出现,为数亿在线用户提供服务,大规模数据集变得触手可及;另外,廉价又高质 量的传感器、廉价的数据存储(克莱德定律)以及廉价计算(摩尔定律)的普及,特别是GPU的普及,使大 规模算力唾手可得。 这一点在 表1.5.1 中得到了说明。 20 https://en.wikipedia.org/wiki/Claude_Shannon org/wiki/Alan_Turing 22 https://en.wikipedia.org/wiki/Donald_O._Hebb 1.5. 深度学习的发展 33 表1.5.1: 数据集vs计算机内存和计算能力 年代 数据规模 内存 每秒浮点运算 1970 100 (鸢尾花卉) 1 KB 100 KF (Intel 8080) 1980 1 K (波士顿房价) 100 KB 1 MF (Intel 80186) 19900 码力 | 797 页 | 29.45 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波Adagrad等优化算法 模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型,对特征工程依赖较强 • FM:大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL:调节学习率,突出低频特征,非batch优化 • Adagrad : 调节学习率,突出低频特征,实现简单 • SGD: Fault tolerance checkpoint Local HDFS Param Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度,千亿参数 • 模型版本 • 多模型多版本:多组实验并行执行,提高实验迭代效率 • 在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE模型的热更新,实时训练与离线训练周期模型融合 3 在线机器学习-模型服务部署 • 模型更新频次效果对比 • FM:数据越新,效果越好 • 相同数据规模,时间越新,效果越好,且时间差距越大,差异越明显 • 月级规模数据,时间相差一周,效果相差约3+%(随数据规模增大,差距缩小) • 数据规模越大,效果越好 • 月级数据规模相比周级数据模型,效果相差5+% • 在线和离线模型效果对比 • 在线FM相比于离线FM,相关指标提升5+%0 码力 | 36 页 | 16.69 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入通过随机Mask(即遮挡)数据库文本中的 词语或语段,让神经网络自主学习复原被 遮挡部分,从而拥有“猜测”缺失内容的 能力,产出预训练模型。再通过大规模预 训练模型理解上文或给定条件,从概率层 面推测最符合要求的输出结果。其本质是 借助超大规模的训练参数猜测上下文的过 程 文本风格 主流思路是分离文本属性及文本内容 迁移 隐式方法即使用某类无监督学习学习或强化学 习模式将文本属性及内容自动分离,常见的有 不需要标注数据集,即大规 模自学阶段,在保证AI算力 充足的条件下,根据 attention机制进行自学 有监督微调 (Supervised fine-tunning) 微调,用来修正模型理解力。 即小规模指导过程,让AI在 小样本数据下进行调整 结合形成了一种使用无监督预训练和有监督微调相结合的语言理解任务的“半监督方法” GPT的发展 35 GPT-1:模型更简化、计算加速,更适合自然语言生成任务(NLG) InstructGPT的训练步骤为:对GPT-3监督微调——训练奖励模型(reward model)——增强学习优化SFT (第二、第三步可以迭代循 环多次) 图:InstructGPT训练三步骤各自对应的数据集规模如下图所示(labeler指的是OpenAI的标注人员,customer指GPT-3 API的用户) GPT的发展 40 ChatGPT核心技术优势 资料来源:《Training language0 码力 | 44 页 | 2.36 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒未来都市 - 智慧城市与基于深度学习的 机器视觉 演讲者/陈宇恒 概要 • 我们是谁 • 智慧城市中机器视觉应用 • 我们是如何构建城市级AI+智慧城市系统 • 大规模深度学习实战系统的几点经验 l商汤科技联合创始人,架构师 lC++/Go/Rust/Ruby开发者 l多个开源项目贡献者 lNIPS国际会议论文作者 @chyh1990 2017.6 2016.3 2015 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检 索 l处理数万到数十万路,城市范围级别监控、门禁摄 像头数据 l10-100 Billion级别深度学习特征检索 - PB以上级别数据库存储 - 100PB级别抓拍图片存储 - 每秒万次并发检索请求 l大规模推广应用 l某种程度上说,城市内所有市民都是系统的用户 深度学习算法发展为平台系统赋能 构建百万以上级别的对象缓存,需要 仔细优化 百倍慢于等价的C实现! 回顾 • 智慧城市中,在智能安防领域机器视觉有着爆发式应用 • 我们使用基于深度学习的机器视觉技术,构建了超大规模的自我演化 的分布式智能系统 • 在构建这个规模的系统中,我们广泛使用了Kubernetes、Go等流行技 术,“那些年踩过的坑”0 码力 | 23 页 | 9.26 MB | 1 年前3
AI大模型千问 qwen 中文文档understanding, audio understanding, tool use, role play, playing as AI agent, etc. 最新版本 Qwen1.5 有以下特点: • 6 种模型规模,包括 0.5B、1.8B、4B、7B、14B 和 72B; • 针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; • 对基础模型和 Chat 模型的多语言支持 实现,不依赖任何外部库,并且针对 x86 架构提供了 AVX、AVX2 和 AVX512 加速支持。此 外,它还提供了 2、3、4、5、6 以及 8 位量化功能,以加快推理速度并减少内存占用。对于大于总 VRAM 容量的大规模模型,该库还支持 CPU+GPU 混合推理模式进行部分加速。本质上,llama.cpp 的用途在于运行 GGUF(由 GPT 生成的统一格式)模型。欲了解更多详情,请参阅官方 GitHub 仓库。以下我们将演示如何 cpp 9 Qwen 1.4.5 在 LM Studio 使用 GGUF 如果你仍然觉得使用 llama.cpp 有困难,我建议你尝试一下 LM Studio 这个平台,它允许你搜索和运行本地的 大规模语言模型。Qwen1.5 已经正式成为 LM Studio 的一部分。祝你使用愉快! 1.5 Ollama Ollama 帮助您通过少量命令即可在本地运行 LLM。它适用于 MacOS、Linux0 码力 | 56 页 | 835.78 KB | 1 年前3
谭国富:深度学习在图像审核的应用深度学习在图像审核的应用 腾讯优图实验室 谭国富 http://open.youtu.qq.com SACC2017 优图团队立足于社交网络大平台,借助社交业务积累 的海量人脸、图片、音乐等数据,专注在人脸、图像、 音乐、语音、机器学习等领域开展技术研究,并积极 推动研究成果在业务中落地产生价值。 关于优图实验室 人脸识别 图像识别 音频识别 SACC2017 目录 01 腾讯优图内容审核能力介绍 微云相册识别,广点通广告识别,顺丰快递单据识别,微云文本 识别等 SACC2017 更多图像定制识别功能 l 图标识别 Ø 图标形式:水印、二维码、条形码、logo等。并可根 据业务需求定制。 Ø 基于团队自研的深度识别引擎,核心算法与基础模型 经过多轮优化,可以准确快速地识别图片中所包含的 各类图标 l 烟雾,吸烟识别 Ø 基于视频直播监管需求, 提供吸烟,烟雾,涉嫌吸毒 等场景的识别能力 Deep Blue战 胜国际 象棋冠 军 2011 苹果的 Siri问世, 技术上不 断创新 2012 Google的 无人驾驶 汽车上路 (2009年 宣布) 2016 Deepmind团队 AlphaGo&Ma ster运用深度学 习算法战胜围 棋冠军 1990-1991 人工智能计算 机DARPA没 能实现,政府 投入缩减,进 入第二次低谷 深度学习 - 带动的AI浪潮0 码力 | 32 页 | 5.17 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博信息过载 • 互动性好 • 信噪比低 Ø 排序目标 • 提高用户的信息消费效率 • 提升用户黏性 技术挑战 Ø 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快,实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 CTR概要介绍0 码力 | 21 页 | 2.14 MB | 1 年前3
共 26 条
- 1
- 2
- 3













