AI大模型千问 qwen 中文文档AI agent, etc. 最新版本 Qwen1.5 有以下特点: • 6 种模型规模,包括 0.5B、1.8B、4B、7B、14B 和 72B; • 针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言; • 支持工具调用、RAG(检索增强文本生成)、角色扮演、AI Agent 快速开始 CHAPTER1 文档 1.1 安装 要快速上手 Qwen1.5,您可以从 Hugging Face 安装 transformers 库,并使用 Qwen1.5 Collection 中的模型。 我们建议您安装最新版本的 transformers 库,或者至少安装 4.37.0 版本。 1.1.1 Pip 安装 pip install transformers -U 1.1.2 Conda Transformers & ModelScope 要快速上手 Qwen1.5,我们建议您首先尝试使用 transformers 进行推理。请确保已安装了 transformers>=4. 37.0 版本。以下是一个非常简单的代码片段示例,展示如何运行 Qwen1.5-Chat 模型,其中包含 Qwen1. 5-7B-Chat 的实例: from transformers import AutoModelForCausalLM0 码力 | 56 页 | 835.78 KB | 1 年前3
机器学习课程-温州大学-11深度学习-序列模型2023年05月 深度学习-序列模型 黄海广 副教授 2 03 长短期记忆(LSTM) 04 双向循环神经网络 本章目录 01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 3 03 长短期记忆(LSTM) 04 双向循环神经网络 1.序列模型概述 01 序列模型概述 02 循环神经网络(RNN) 循环神经网络(RNN) 05 深层循环神经网络 4 1.序列模型概述 循环神经网络(RNN)之类的模型在语音识别、自然语言处理和 其他领域中引起变革。 5 数学符号 在这里?<1>表示Harry这个单词,它就是一个第 4075行是1,其余值都是0的向量(上图编号1所示 ),因为那是Harry在这个词典里的位置。 ?<2>是第6830行是1,其余位置都是0的向量(上 图编号2所示)。 同一层节点之间无关联,从而导致获取时序规则方面功 能不足 循环神经网络可以解决时序问题 基于语言模型(LM),故可以捕捉时序规则信息 它是如何实现的? 7 03 长短期记忆(LSTM) 04 双向循环神经网络 2.循环神经网络(RNN) 01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 8 2.循环神经网络(RNN)0 码力 | 29 页 | 1.68 MB | 1 年前3
李东亮:云端图像技术的深度学习模型与应用云端图像技术的深度学习模型与应用 李东亮 360 人工智能研究院 lidongliang@360.cn 2017.10.20 SACC2017 360电脑安全产品 月活跃数达到4.42亿 360手机安全产品 移动端用户总数已达约1.49亿 360浏览器 月活跃用户数量为3.03亿 360导航 日均独立访问用户为8900万人 日均点击量约为4.51亿次 360搜索 稳定拥有35%以上的市场份额 移动端 业 务 视觉感知模型 SACC2017 视觉感知核心问题 Object Segmentation Object Classification Person, Horse, Barrier, Table, etc Object Detection 检测 识别 分割 跟踪 核 心 SACC2017 图像技术的三个核心难点>>小、快、准 小模型 线上速度快 预测准 Frequent remote upgrade CPU-constrained, real-time Cloud processing SACC2017 视觉感知模型 分割 Forward Block Forward Block deconvolution deconvolution convolution convolution 检测 Forward Block Forward0 码力 | 26 页 | 3.69 MB | 1 年前3
《TensorFlow 2项目进阶实战》2-快速上手篇:动⼿训练模型和部署服务扫码试看/订阅 《TensorFlow 2 项目进阶实战》视频课程 快速上手篇:动⼿训练模型和部署服务 • TensorFlow 2 开发环境搭建 • 使用 tf.keras.datasets 加载数据 • 使用 tf.data.Dataset 加载数据 • 使用 tf.keras.Model 管理模型 • Fashion MNIST 数据集介绍 • 使用 TensorFlow 2 训练分类网络 from_generator 加载 Generator 使用 tf.data.TextLineDataset 加载文本 “Hello TensorFlow” Try it! 使用 tf.keras.Model 管理模型 历史上的 tf.keras.Model • Class tf.compat.v1.keras.Model • Class tf.compat.v1.keras.models.Model • Model • Class tf.keras.models.Model 使用 tf.keras.Model 构建模型 使用 tf.keras.Model 构建模型 使用 tf.keras.Model 训练模型 保存和加载 h5 模型 保存和加载 SavedModel 模型 Fashion MNIST 数据集介绍 Original MNIST dataset The MNIST database0 码力 | 52 页 | 7.99 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱从推荐模型的基础特点看 袁镱 腾讯 个⼈简介 � ⽆量系统 � 项⽬于17年启动,先后经过了6个主要版本的 迭代 � 覆盖腾讯PCG全部业务的推荐场景,⽀持腾讯 IEG,CSIG,QQ⾳乐,阅⽂等业务的部分推 荐场景 � 袁镱 博⼠,专家⼯程师 � 研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, , 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排 模型 管理 上线 管理 ⽆量 RGW/Cos/ kafka 样本 存储 实时样本 ⽣成服务 离线样本 ⽣成任务 ⽣成任务 数据 通道 特征 处理 模型 登记 模型 上线 预测 请求 数据 落地 ⽆量 ⽤户⾏为数据上报 特征 库 内容 获取 请求 � 推荐场景的重要性 � PCG的图⽂,视频推荐(腾讯视频,腾讯新 闻,QQ看点,浏览器,微视, QQ⼩世界等) � 腾讯系内容推荐:阅⽂集团,QQ⾳乐 � Facebook推荐场景推理成本占AI推理成本的 >72% [ISCA2020 RecNMP]0 码力 | 22 页 | 6.76 MB | 1 年前3
阿里云上深度学习建模实践-程孟力语音助手 • • • 优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … ) 深度学习应用场景 沙漠 湖泊 旅行 深度学习应用主要的挑战: 2.模型效果优 化困难 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂 从FM到DeepFM rt 增 加了10倍怎么优化? 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 深度学习应用主要的挑战: 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 从FM到DeepFM rt 增 加了10倍怎么优化? 2.模型效果优 化困难 1.方案复杂 Data Model Compute Platform 要求: 准确: 低噪声 全面: 同分布 模型选型: 容量大 计算量小 训练推理: 高qps, 低rt 支持超大模型 性价比 流程长、环节多:0 码力 | 40 页 | 8.51 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入第一步,先从大量的文本集中学习词嵌入。 第二步,你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任 务中,比如说用这个300维的词嵌入来表示你的单词。这样做的一个好处就是你 可以用更低维度的特征向量代替原来的10000维的one-hot向量,现在你可以用 一个300维更加紧凑的向量。 第三步,当你在你新的任务上训练模型时,在你的命名实体识别任务上,只有少 量的标记数据集上,你可以 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据(例如,所 有维基百科文章)。然后 2.我们有一个窗口(比如说三个单词) ,我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 16 3.Word2Vec (下图左边为CBOW,右边为Skip-Gram) CBO CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。 17 3.Word2Vec 我们实际构建和训练模型的数据集将如下所示: 这被称为连续词袋结构,并在word2vec论文 one of the word2vec papers 中进行过描述。 18 3.Word2Vec 负采样 计算的角度来看,SkipGram非常消耗资源:尤其是我们将在 数据集中为每个训练样本做一次(很可能数千万次)。我们0 码力 | 44 页 | 2.36 MB | 1 年前3
动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . . 96 3.2.3 初始化模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.2.4 定义模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 3.3.3 定义模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102 3.3.4 初始化模型参数 . . . . . . . . . . . . . . . . . . . . . . . . 7 信息论基础 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 3.4.8 模型预测和评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 3.5 图像分类数据集 .0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言03 机器学习的背景知识 04 机器学习的开发流程 4 机器学习与人工智能、深度学习的关系 人工智能:机器展现的人类智能 机器学习:计算机利用已有的数 据(经验),得出了某种模型,并利 用此模型预测未来的一种方法。 深度学习:实现机器学习的一种 技术 人工智能 机器学习 深度学习 5 杨立昆(Yann LeCun) 杰弗里·欣顿(Geoffrey Hinton) 本吉奥( Facebook(脸书) 人脸识别、深度学习等 社交 美国 2004年 上市 市值5934亿美元 4 百度 计算机视觉技术、自然语言处理技 术 、知识图谱等 综合 中国 2001年 上市 市值438亿美元 5 大疆创新 图像识别技术、智能引擎技术等 无人机 中国 2006年 战略融资 估值210亿美元 6 商汤科技 计算机视觉技术、深度学习 安防 中国 2014年 D轮融资 估值70亿美元 7 旷视科技 计算机视觉技术等 深度学习、智适应学习技术 计算机 美国 1911年 上市 市值1198亿美元 11 松鼠AI 1对1 智适应学习技术、机器学习 教育 中国 2015年 A轮融资 估值11亿美元 12 字节跳动 跨媒体分析推理技术、深度学习、自 然 语言处理、图像识别 资讯 中国 2012年 Pre-IPO轮融资 估值750亿美元 13 Netflix(网飞) 视频图像优化、剧集封面图片个性 化 、视频个性化推荐 媒体及内容0 码力 | 78 页 | 3.69 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112部分,主要介绍 PyTorch 相关基础,为后续算法 实现铺垫;第 6~9 章为第 3 部分,主要介绍神经网络的核心理论和共性知识,让读者理解深 度学习的本质;第 10~15 章为模型算法应用部分,主要介绍常见的算法与模型,让读者能够 学有所用。 在本书中编写时,很多英文词汇尚无法在业界找到一个共识翻译名,因此作者备注翻译 的英文原文,供读者参考,同时也方便读者日后阅读相关英文文献时,不至于感到陌生。 1.7 参考文献 第 2 章 回归问题 2.1 神经元模型 2.2 优化方法 2.3 线性模型实战 2.4 线性回归 2.5 参考文献 第 3 章 分类问题 3.1 手写数字图片数据集 3.2 模型构建 3.3 误差计算 3.4 真的解决了吗 3.5 非线性模型 3.6 表达能力 3.7 优化方法 3.8 手写数字图片识别体验 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载 8.4 自定义类 8.5 模型乐园 8.6 测量工具 8.7 可视化 8.8 参考文献 第 9 章 过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 9.4 模型设计 9.5 正则化 9.6 Dropout 90 码力 | 439 页 | 29.91 MB | 1 年前3
共 65 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













