超大规模深度学习在美团的应用-余建平超大规模深度学习在美团的应用 余建平 美团点评用户平台研究员 自我介绍 自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习 工程相关的工作,加入美团后,负责超大规模机器学习系统,从无到有搭建起支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 • VC维理论 描述模型的学习能力:VC维越大模型越复杂,学习能力越强 机器学习能力 = 数据 + 特征 + 模型 • 数据 海量数据: 美团的亿级用户、千万级POI • 特征 大规模离散特征0 码力 | 41 页 | 5.96 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱0 码力 | 22 页 | 6.76 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒未来都市 - 智慧城市与基于深度学习的 机器视觉 演讲者/陈宇恒 概要 • 我们是谁 • 智慧城市中机器视觉应用 • 我们是如何构建城市级AI+智慧城市系统 • 大规模深度学习实战系统的几点经验 l商汤科技联合创始人,架构师 lC++/Go/Rust/Ruby开发者 l多个开源项目贡献者 lNIPS国际会议论文作者 @chyh1990 2017.6 2016.3 2015 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检 索 l处理数万到数十万路,城市范围级别监控、门禁摄 像头数据 l10-100 Billion级别深度学习特征检索 - PB以上级别数据库存储 - 100PB级别抓拍图片存储 - 每秒万次并发检索请求 l大规模推广应用 l某种程度上说,城市内所有市民都是系统的用户 深度学习算法发展为平台系统赋能 Heap上 构建百万以上级别的对象缓存,需要 仔细优化 百倍慢于等价的C实现! 回顾 • 智慧城市中,在智能安防领域机器视觉有着爆发式应用 • 我们使用基于深度学习的机器视觉技术,构建了超大规模的自我演化 的分布式智能系统 • 在构建这个规模的系统中,我们广泛使用了Kubernetes、Go等流行技 术,“那些年踩过的坑”0 码力 | 23 页 | 9.26 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入通过随机Mask(即遮挡)数据库文本中的 词语或语段,让神经网络自主学习复原被 遮挡部分,从而拥有“猜测”缺失内容的 能力,产出预训练模型。再通过大规模预 训练模型理解上文或给定条件,从概率层 面推测最符合要求的输出结果。其本质是 借助超大规模的训练参数猜测上下文的过 程 文本风格 主流思路是分离文本属性及文本内容 迁移 隐式方法即使用某类无监督学习学习或强化学 习模式将文本属性及内容自动分离,常见的有 基础模型(Foundation Model)在广泛的应用中整合构建机器学习系统的方法,它为许多任务提供了强大的杠杆作用 ✓ 基础模型是在深度神经网络和自我监督学习的基础上演化而来。基础模型基于广泛数据(通常使用大规模自我监督)训练的任何模型,可以适 应(例如微调)广泛的下游任务,目前例子包括BERT( Devlin et al.)、GPT-3(Brown et al. 2020)和CLIP(Radford et 有了基础模型,甚至出现了情境学习等高级 功能 ChatGPT核心技术优势 42 ChatGPT以基础模型为杠杆,可适用多类下游任务 ◼ ChatGPT采用了GPT3.5(InstructGPT)大规模预训练模型,在 自然语言理解和作品生成上取得极大性能提升 ✓ 鉴于传统NLP技术的局限问题,基于大语言模型(LLM)有助于充分利 用海量无标注文本预训练,从而文本大模型在较小的数据集和零数据集0 码力 | 44 页 | 2.36 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112∗,就可以从(部分)实数空间中随机采样?和?,并计算出?和?对应模型的误差值ℒ, 然后从测试过的{ℒ}集合中挑出最好的ℒ∗,它所对应的?和?就可以近似作为最优?∗和?∗。 这种算法固然简单直接,但是面对大规模、高维度数据的优化问题时计算效率极低, 基本不可行。梯度下降算法(Gradient Descent)是神经网络训练中最常用的优化算法,配合 强大的图形处理芯片 GPU(Graphics Processing CIFAR10/100,小规模图片数据集 ❑ ImageNet,大规模图片数据集 ❑ VOC,图片分割数据集 ❑ Kinetics-400,视频动作理解数据集 这些数据集在机器学习或深度学习的研究和学习中使用地非常频繁。对于新提出的算法, 通常优先在经典的数据集上面进行测试和验证,再尝试迁移到更大规模、更复杂的数据集 上。torchvision 均对这些常见数据集的加载提供了便捷支持,对于如 8.3 模型保存与加载 模型训练完成后,需要将模型保存到文件系统上,从而方便后续的模型测试与部署工 作。实际上,在训练时间隔性地保存模型状态也是非常好的习惯,这一点对于训练大规模 的网络尤其重要。一般大规模的网络需要训练数天乃至数周的时长,一旦训练过程被中断 或者发生宕机等意外,之前训练的进度将全部丢失。如果能够间断地保存模型状态到文件 系统,即使发生宕机等意外,也可以从最近一次的网络状态文件中恢复,从而避免浪费大0 码力 | 439 页 | 29.91 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波Adagrad等优化算法 模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型,对特征工程依赖较强 • FM:大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL:调节学习率,突出低频特征,非batch优化 • Adagrad : 调节学习率,突出低频特征,实现简单 • SGD: 微博技术里程碑和业务生态 13 2008年 Hadoop 2009年 微博Feed 2011年 开放平台 2013年 大数据 2015年 机器学习 2016年 机器学习平台 2017年 大规模机器学习 深度学习平台 2018年 在线机器学习 2019年 在线深度学习 1 微博技术里程碑 关注/兴趣 分发/推荐 生产/传播 优质内容 普通用户 优质用户 潜力 挖掘0 码力 | 36 页 | 16.69 MB | 1 年前3
AI大模型千问 qwen 中文文档实现,不依赖任何外部库,并且针对 x86 架构提供了 AVX、AVX2 和 AVX512 加速支持。此 外,它还提供了 2、3、4、5、6 以及 8 位量化功能,以加快推理速度并减少内存占用。对于大于总 VRAM 容量的大规模模型,该库还支持 CPU+GPU 混合推理模式进行部分加速。本质上,llama.cpp 的用途在于运行 GGUF(由 GPT 生成的统一格式)模型。欲了解更多详情,请参阅官方 GitHub 仓库。以下我们将演示如何 cpp 9 Qwen 1.4.5 在 LM Studio 使用 GGUF 如果你仍然觉得使用 llama.cpp 有困难,我建议你尝试一下 LM Studio 这个平台,它允许你搜索和运行本地的 大规模语言模型。Qwen1.5 已经正式成为 LM Studio 的一部分。祝你使用愉快! 1.5 Ollama Ollama 帮助您通过少量命令即可在本地运行 LLM。它适用于 MacOS、Linux0 码力 | 56 页 | 835.78 KB | 1 年前3
QCon2018北京-基于深度学习的视频结构化实践-姚唐仁7 ���� 8 2 ������ ��PA� ������ 3 4 5 6 ���L ������ ��PA� ����� ���L ��������� ������L 大规模视频训练框架 结构化策略 ���� ������ ���� ���� 主题分类-特征提取 DPN SENet ResNeXt NASNet 主题分类-模型训练 模型融合0 码力 | 39 页 | 38.01 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博提高用户的信息消费效率 • 提升用户黏性 技术挑战 Ø 规模大 • 用户和Feed内容数量大 Ø 指标量化 • 用户体验 • 内容更新快,实时性要求高 • 内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 CTR概要介绍 数据 特征 目标 模型 效果 Ø CTR任务特点 Ø CTR预估常用算法0 码力 | 21 页 | 2.14 MB | 1 年前3
华为云深度学习在文本分类中的实践-李明磊2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难 预训练+微调 注意力机制 端到端训练 符号-向量 8 预训练+微调 大规模语料训练通 用语言模型 在目标语料上微调 语言模型 在目标语料上训练 分类器 … … BERT E[ C E1 T1 E2 T2 En Tn … … 模型: 数据:0 码力 | 23 页 | 1.80 MB | 1 年前3
共 14 条
- 1
- 2













