超大规模模型 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

AI大模型千问 qwen 中文文档

AI agent, etc. 最新版本 Qwen1.5 有以下特点： • 6 种模型规模，包括 0.5B、1.8B、4B、7B、14B 和 72B； • 针对每种尺寸提供基础模型和 Chat 模型，并确保聊天模型按照人类偏好进行校准； • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言； • 支持工具调用、RAG（检索增强文本生成）、角色扮演、AI Agent 快速开始 CHAPTER1 文档 1.1 安装要快速上手 Qwen1.5，您可以从 Hugging Face 安装 transformers 库，并使用 Qwen1.5 Collection 中的模型。我们建议您安装最新版本的 transformers 库，或者至少安装 4.37.0 版本。 1.1.1 Pip 安装 pip install transformers -U 1.1.2 Conda 5，我们建议您首先尝试使用 transformers 进行推理。请确保已安装了 transformers>=4. 37.0 版本。以下是一个非常简单的代码片段示例，展示如何运行 Qwen1.5-Chat 模型，其中包含 Qwen1. 5-7B-Chat 的实例： from transformers import AutoModelForCausalLM, AutoTokenizer device = "cuda"

0 码力 | 56 页 | 835.78 KB | 1 年前
3
超大规模深度学习在美团的应用-余建平

超大规模深度学习在美团的应用余建平美团点评用户平台研究员自我介绍自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习工程相关的工作，加入美团后，负责超大规模机器学习系统，从无到有搭建起支持千亿级别规模的深度学习系统，与推荐、搜索、广告业务深度合作，在算法上提供从召回到排序的全系统优化方案，在工程上提供离线、近线、在线的全流程解决方案。。目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型美团超大规模模型应用场景美团推荐美团搜索美团广告美团应用场景简介 海量的用户行为，完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型超大规模模型的有效性 • VC维理论  描述模型的学习能力：VC维越大模型越复杂，学习能力越强  机器学习能力

0 码力 | 41 页 | 5.96 MB | 1 年前
3
机器学习课程-温州大学-11深度学习-序列模型

2023年05月深度学习-序列模型黄海广副教授 2 03 长短期记忆(LSTM) 04 双向循环神经网络本章目录 01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 3 03 长短期记忆(LSTM) 04 双向循环神经网络 1.序列模型概述 01 序列模型概述 02 循环神经网络(RNN) 循环神经网络(RNN) 05 深层循环神经网络 4 1.序列模型概述循环神经网络（RNN）之类的模型在语音识别、自然语言处理和其他领域中引起变革。 5 数学符号在这里?<1>表示Harry这个单词，它就是一个第 4075行是1，其余值都是0的向量（上图编号1所示），因为那是Harry在这个词典里的位置。 ?<2>是第6830行是1，其余位置都是0的向量（上图编号2所示）。同一层节点之间无关联，从而导致获取时序规则方面功能不足  循环神经网络可以解决时序问题  基于语言模型（LM），故可以捕捉时序规则信息  它是如何实现的？ 7 03 长短期记忆(LSTM) 04 双向循环神经网络 2.循环神经网络(RNN) 01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 8 2.循环神经网络(RNN)

0 码力 | 29 页 | 1.68 MB | 1 年前
3
李东亮：云端图像技术的深度学习模型与应用

云端图像技术的深度学习模型与应用李东亮 360 人工智能研究院 lidongliang@360.cn 2017.10.20 SACC2017 360电脑安全产品月活跃数达到4.42亿 360手机安全产品移动端用户总数已达约1.49亿 360浏览器月活跃用户数量为3.03亿 360导航日均独立访问用户为8900万人日均点击量约为4.51亿次 360搜索稳定拥有35%以上的市场份额移动端业务视觉感知模型 SACC2017 视觉感知核心问题 Object Segmentation Object Classification Person, Horse, Barrier, Table, etc Object Detection 检测识别分割跟踪核心 SACC2017 图像技术的三个核心难点>>小、快、准小模型线上速度快预测准 Frequent remote upgrade CPU-constrained, real-time Cloud processing SACC2017 视觉感知模型分割 Forward Block Forward Block deconvolution deconvolution convolution convolution 检测 Forward Block Forward

0 码力 | 26 页 | 3.69 MB | 1 年前
3
《TensorFlow 2项目进阶实战》2-快速上手篇：动⼿训练模型和部署服务

扫码试看/订阅《TensorFlow 2 项目进阶实战》视频课程快速上手篇：动⼿训练模型和部署服务 • TensorFlow 2 开发环境搭建 • 使用 tf.keras.datasets 加载数据 • 使用 tf.data.Dataset 加载数据 • 使用 tf.keras.Model 管理模型 • Fashion MNIST 数据集介绍 • 使用 TensorFlow 2 训练分类网络 from_generator 加载 Generator 使用 tf.data.TextLineDataset 加载文本 “Hello TensorFlow” Try it！使用 tf.keras.Model 管理模型历史上的 tf.keras.Model • Class tf.compat.v1.keras.Model • Class tf.compat.v1.keras.models.Model • Model • Class tf.keras.models.Model 使用 tf.keras.Model 构建模型使用 tf.keras.Model 构建模型使用 tf.keras.Model 训练模型保存和加载 h5 模型保存和加载 SavedModel 模型 Fashion MNIST 数据集介绍 Original MNIST dataset The MNIST database

0 码力 | 52 页 | 7.99 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

从推荐模型的基础特点看  袁镱腾讯个⼈简介 � ⽆量系统 � 项⽬于17年启动，先后经过了6个主要版本的迭代 � 覆盖腾讯PCG全部业务的推荐场景，⽀持腾讯 IEG，CSIG，QQ⾳乐，阅⽂等业务的部分推荐场景 � 袁镱博⼠，专家⼯程师 � 研究⽅向：机器学习系统，云计算，⼤数据系统 � 负责腾讯平台与内容事业群（PCG）技术中台核⼼引擎：⽆量系统。⽀持⼤规模稀疏模型训练， �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结基于深度学习模型的推荐流程，场景与⽬标 Serving系统 HDFS 数据通道训练系统召回业务服务排序混排模型管理上线管理⽆量 RGW/Cos/ kafka 样本存储实时样本⽣成服务离线样本⽣成任务数据通道特征处理模型登记模型上线预测 QQ⼩世界等） � 腾讯系内容推荐：阅⽂集团，QQ⾳乐 � Facebook推荐场景推理成本占AI推理成本的 >72% [ISCA2020 RecNMP] � 千亿级推荐模型应⽤ O1. 千亿级特征（TB级）的模型的在线/离线训练，在线推理服务和持续上线 O2. 针对推荐特点的深度优化，达到业界先进⽔平推荐系统的核⼼特点 � Feature 1（基本特点） 1.1 User与推荐系统交互，7*24⼩时

0 码力 | 22 页 | 6.76 MB | 1 年前
3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒

2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检索 l处理数万到数十万路，城市范围级别监控、门禁摄像头数据 l10-100 Billion级别深度学习特征检索 - PB以上级别数据库存储 - 100PB级别抓拍图片存储数据清洗-查询深度学习训练平台模型测试与验证深度学习算法在产品应用中的挑战 • 深度学习算法也需要“深度”学习业务需求 - 处理特殊输入，如模糊、黑白照片 - 适配具有不同特征的数据源 - 在严肃应用中，客户追求100%准确率，算法性能提升永无止境 • 深度学习模型需要在准确率和速度上做均衡 - 使用更加精巧的模型和Operator设计 - 使用模型压缩算法，在基本保障准确率的情况下大幅提升速度 Heap上构建百万以上级别的对象缓存，需要仔细优化百倍慢于等价的C实现！回顾 • 智慧城市中，在智能安防领域机器视觉有着爆发式应用 • 我们使用基于深度学习的机器视觉技术，构建了超大规模的自我演化的分布式智能系统 • 在构建这个规模的系统中，我们广泛使用了Kubernetes、Go等流行技术，“那些年踩过的坑”

0 码力 | 23 页 | 9.26 MB | 1 年前
3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

内容形式多样、非结构化 • 海量计算、超大规模模型优化 1 2 3 深度学习应用与实践常规CTR方法排序微博Feed流排序场景介绍目录 CTR概要介绍数据特征目标模型效果 Ø CTR任务特点 Ø CTR预估常用算法 • LR • GBDT • FM • 大量离散特征、高维稀疏 • 特征关联性挖掘 CTR一般流程业务目标与模型选择 Ø 模型优化目标 • 互动（转发/评论/赞）互动（转发/评论/赞）点击（图片/视频/文章/链接等）阅读时长 Ø 模型选择 • 线性模型LR+特征工程 • 多目标预估 • 排序基于pointwise的 learning to rank 互动模型点击模型阅读模型 Score = ?)*+,-./+ ∗ ???? + ?/6)/7 ∗ ???? + ?-,.8 ∗ ???? 特征工程 Ø 特征工程非常重要 • 手动组合——专家知识存在问题 • 头部效应 • 实时反馈类收集与在线存在差异性 Ø 解决方案 • 正负样本比例严重失衡 • 对头部曝光进行降采样，长尾曝光上采样 • 负样本进行下采样 • 后端样本预采样模型评估 Ø 离线评估 • AUC / wAUC Ø 在线评估 • 离线评估与线上效果正相关？ • A/B test测试 • 分目标人群测试：地域、活跃度… A B 小流量-实验组小流量-对照组

0 码力 | 21 页 | 2.14 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

第一步，先从大量的文本集中学习词嵌入。第二步，你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任务中，比如说用这个300维的词嵌入来表示你的单词。这样做的一个好处就是你可以用更低维度的特征向量代替原来的10000维的one-hot向量，现在你可以用一个300维更加紧凑的向量。第三步，当你在你新的任务上训练模型时，在你的命名实体识别任务上，只有少量的标记数据集上，你可以词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据（例如，所有维基百科文章）。然后 2.我们有一个窗口（比如说三个单词），我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 16 3.Word2Vec （下图左边为CBOW，右边为Skip-Gram） CBO CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。 17 3.Word2Vec 我们实际构建和训练模型的数据集将如下所示：这被称为连续词袋结构，并在word2vec论文 one of the word2vec papers 中进行过描述。 18 3.Word2Vec 负采样计算的角度来看，SkipGram非常消耗资源：尤其是我们将在数据集中为每个训练样本做一次（很可能数千万次）。我们

0 码力 | 44 页 | 2.36 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

部分，主要介绍 PyTorch 相关基础，为后续算法实现铺垫；第 6~9 章为第 3 部分，主要介绍神经网络的核心理论和共性知识，让读者理解深度学习的本质；第 10~15 章为模型算法应用部分，主要介绍常见的算法与模型，让读者能够学有所用。在本书中编写时，很多英文词汇尚无法在业界找到一个共识翻译名，因此作者备注翻译的英文原文，供读者参考，同时也方便读者日后阅读相关英文文献时，不至于感到陌生。 1.7 参考文献第 2 章回归问题 2.1 神经元模型 2.2 优化方法 2.3 线性模型实战 2.4 线性回归 2.5 参考文献第 3 章分类问题 3.1 手写数字图片数据集 3.2 模型构建 3.3 误差计算 3.4 真的解决了吗 3.5 非线性模型 3.6 表达能力 3.7 优化方法 3.8 手写数字图片识别体验 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载 8.4 自定义类 8.5 模型乐园 8.6 测量工具 8.7 可视化 8.8 参考文献第 9 章过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 9.4 模型设计 9.5 正则化 9.6 Dropout 9

0 码力 | 439 页 | 29.91 MB | 1 年前
3

共 62 条前往

页

分类

语言

格式