Chatbots 中对话式交互系统的分析与应用[探索]聊天机器人 吴金龙@爱因互动 2017年04月17日 吴金龙 • 2005~2010:北大数学院 • 推荐系统 • 2010~2011:阿里云 • PC/手机输入法 • 2011~2017:世纪佳缘 • 用户推荐、网警等数据系统 • 技术部负责人 • 一个AI负责人 • 2017~现在:爱因互动 • 技术合伙人、算法负责人 • ChatbotsChina发起人 • •Microsoft Cortana •微软小冰 2016 •Facebook Messenger •Microsoft Tay IR-Bot: 智能检索机器人 IR-Bot:检索问答系统 IR-Bot:深度学习 • 句子表示、QA匹配 基于深度学习的智能问答 IR-Bot:深度学习 • 句子表示、QQ匹配 Semantic Question Matching with Deep Tracking (DST) • 对话状态应该包含持续对话所需要的各种信息 • DST问题:依据最新的系统和用户动作,更新对话状态 • Q:如何表示对话状态 状态追踪 (DST) 旧状态 用户动作 系统动作 新状态 策略优化 Dialogue Policy Optimization (DPO) • 系统如何做出反馈动作 • 作为序列决策过程进行优化:增强学习 Milica Gašić (2014)0 码力 | 39 页 | 2.24 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱� ⽆量系统 � 项⽬于17年启动,先后经过了6个主要版本的 迭代 � 覆盖腾讯PCG全部业务的推荐场景,⽀持腾讯 IEG,CSIG,QQ⾳乐,阅⽂等业务的部分推 荐场景 � 袁镱 博⼠,专家⼯程师 � 研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排 模型 管理 上线 管理 ⽆量 RGW/Cos/ kafka 样本 存储 实时样本 ⽣成服务 离线样本 ⽣成任务 数据 通道 特征 处理 模型 登记 模型 上线 千亿级推荐模型应⽤ O1. 千亿级特征(TB级)的模型的在线/离 线训练,在线推理服务和持续上线 O2. 针对推荐特点的深度优化,达到业界先 进⽔平 推荐系统的核⼼特点 � Feature 1(基本特点) 1.1 User与推荐系统交互,7*24⼩时 流式学习 1.2 Item和User新增,离开/遗忘, Embedding空间动态变化。 短期命中的⾼频key随时间缓慢变化 少量的⾼频key占据了主要访问需求0 码力 | 22 页 | 6.76 MB | 1 年前3
Keras: 基于 Python 的深度学习库6 2.4 Keras 支持多个后端引擎,并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持 . . . . . . . . . . . . . . 21.1 关于 Github Issues 和 Pull Requests . . . . . . . . . . . . . . . . . . . . . . . . . . 242 21.2 漏洞报告 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 21.3 请求新功能 batch_size=128) 构建一个问答系统,一个图像分类模型,一个神经图灵机,或者其他的任何模型,就是这么 的快。深度学习背后的思想很简单,那么它们的实现又何必要那么痛苦呢? 有关 Keras 更深入的教程,请查看: • 开始使用 Sequential 顺序模型 • 开始使用函数式 API 在代码仓库的 examples 目录中,你会找到更多高级模型:基于记忆网络的问答系统、基于 栈式 LSTM 的文本生成等等。0 码力 | 257 页 | 1.19 MB | 1 年前3
机器学习课程-温州大学-10机器学习-聚类,我们的目标是找到能够 区分正样本和负样本的决策边界,需要据此拟合一个假设函数。 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签?,无 监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality 如何将将原高维空间中的数据点映射到低维度的空间中? ✓ 关联规则( Association Rules) ✓ 很多买尿布的男顾客,同时买了啤酒,可以从中找出什么规律来提 高超市销售额? ✓ 推荐系统( Recommender systems) ✓ 很多客户经常上网购物,根据他们的浏览商品的习惯,给他们推荐 什么商品呢? 主要的无监督学习方法 6 1.无监督学习方法概述 主要算法 K-means、密度聚类、层次聚类 可在噪声的空间数据库中发现任意形状的聚类。 密度:空间中任意一点的密度是以该点为圆心,以扫描半径构成的圆区域内包 含的点数目。 30 密度聚类-DBSCAN DBSCAN使用两个超参数: 扫描半径 (eps)和最小包含点数(minPts)来获得簇的数量,而不是猜测簇的数目。 ➢ 扫描半径 (eps) : 用于定位点/检查任何点附近密度的距离度量,即扫描半径。 ➢ 最小包含点数(minPts) : 聚集在一起0 码力 | 48 页 | 2.59 MB | 1 年前3
《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别第五部分 实战 TensorFlow 手写体数字识别 扫描二维码 试看/购买《TensorFlow 快速入门与实战》视频课程 • 手写体数字 MNIST 数据集介绍 • MNIST Softmax 网络介绍 • 实战 MNIST Softmax 网络 • MNIST CNN 网络介绍 • 实战 MNIST CNN 网络 第五部分 目录 手写体数字 MNIST 数据集介绍 MNIST 参考大脑中神经元信息传递信号的工作机制,发明了神经感知机模型 Perceptron 。 二分类模型 神经网络 在机器学习和认知科学领域,人工神经网络(ANN),简称神经网络(NN)是一种模仿生物 神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于 对函数进行估计或近似。神经网络是多层神经元的连接,上一层神经元的输出,作为下一层 神经元的输入。 线性不可分 激活函数(Activation 网络的输入层类似。 MNIST CNN 输入特征,MNIST Softmax 输入原图。 MNIST CNN 示意图 实战 MNIST CNN 网络 “Hello TensorFlow” Try it 扫描二维码 试看/购买《TensorFlow 快速入门与实战》视频课程0 码力 | 38 页 | 1.82 MB | 1 年前3
《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别第六部分 实战 TensorFlow 验证码识别 扫描二维码 试看/购买《TensorFlow 快速入门与实战》视频课程 • 准备模型开发环境 • 生成验证码数据集 • 输入与输出数据处理 • 模型结构设计 • 模型损失函数设计 • 模型训练过程分析 • 模型部署与效果演示 第六部分 目录 准备模型开发环境 第三方依赖包 数据集生成 • Pillow • captcha 标准图灵测试中那样由人类来考计算机,人们有时称CAPTCHA是一种反向图灵测试。 https://zh.wikipedia.org/wiki/captcha 验证码(CAPTCHA)破解 一些曾经或者正在使用中的验证码系统已被破解。 这包括Yahoo验证码的一个早期版本 EZ-Gimpy,PayPal使用的验证码,LiveJournal、 phpBB使用的验证码,很多金融机构(主要是银行)使用的网银验证码以及很多其他网站 image=@2140.png 'http://localhost:5000/predict' 2140.png 1459.png 6598.png “Hello TensorFlow” Try it 扫描二维码 试看/购买《TensorFlow 快速入门与实战》视频课程0 码力 | 51 页 | 2.73 MB | 1 年前3
阿里云上深度学习建模实践-程孟力阿里云深度学习实践 程孟力 花名: 杨熙 阿里巴巴-计算平台-PAI 个性化推荐 视频理解 智能对话系统 图像检索 更多场景 OCR识别 人脸核身 智能风控 自动驾驶 语音助手 • • • 优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … ) 深度学习应用场景 沙漠 湖泊 旅行 深度学习应用主要的挑战: 2.模型效果优 化困难 Blink 场景丰富: 图像/视频/推荐/搜索 大数据+大模型: Model Zoo 跨场景+跨模态 开箱即用: 封装复杂性 白盒化, 可扩展性强 积极对接开源系统+模型 FTRL SGD Adam Solutions Librarys 优势: Components Framework EasyVision EasyRec GraphLearn EasyTransfer learning Data Label Model Serving CV / NLP解决方案: EAS Web App Mobile App On-prem System 3 1 2 证件扫描 活体检测 人脸比对 • 卡证OCR • 人脸检测 • 活体检测 •人脸比对 Mobile SDK API + customer 示例: e-Know Your Customer0 码力 | 40 页 | 8.51 MB | 1 年前3
PyTorch OpenVINO 开发实战系列教程第一篇的压缩、量化、服务器端云化部署、推理端 SDK 支持等方面 Pytorch 也在不断的演化改进。 在操作系统与 SDK 支持方面,Pytorch 从最初的单纯支持 Python 语言到如今支持 Python/C++/Java 主流编程语言, 目前已经支持 Linux、Windows、MacOS 等主流的操作系统、 同时全面支持 Android 与 iOS 移动端部署。 在版本发布管理方面,Pytorch 平台、ubuntu 平台还是 Mac 平台都靠一条命令 行就可以完成安装。首先是安装 Python 语言包支持,当前 Pytorch 支持的 Python 语言版本与系统对应列表如下: 表 -1(参考 Pytorch 官网与 Github) 系统 Python3�6 Python3�7 Python3.8 Linux CPU/GPU 支持 支持 支持 Windows CPU/GPU 支持 支持 支持 x版本, 其中 x 表示 3.6 版本下的各个小版本,依此类推 3.7、3.8 同样 如此。本书代码演示以 Python3.6.5 版本作为 Python 支持语 言包。它在 Windows 系统下的安装过程非常简单,只需如下 几步: 1. 下载 Python3.6.5 安装包,地址为: https://www.python.org/ftp/python/3.6.5/python-3.60 码力 | 13 页 | 5.99 MB | 1 年前3
动手学深度学习 v2.0、自动语音识别、强化学 习和统计建模等领域的快速发展。有了这些进步,我们现在可以制造比以往任何时候都更自主的汽车(不过 可能没有一些公司试图让大家相信的那么自主),可以自动起草普通邮件的智能回复系统,帮助人们从令人 压抑的大收件箱中解放出来。在围棋等棋类游戏中,软件超越了世界上最优秀的人,这曾被认为是几十年后 的事。这些工具已经对工业和社会产生了越来越广泛的影响,改变了电影的制作方式、疾病的诊断方式,并 描述了深度学习计算的各种关键组件,并为我们随后 实现更复杂的模型奠定了基础。接下来,在 6节 和 7节 中,我们介绍了卷积神经网络(convolutional neural network,CNN),这是构成大多数现代计算机视觉系统骨干的强大工具。随后,在 8节 和 9节 中,我们引入了循环神经网络(recurrent neural network,RNN),这是一种利用数据中的时间或序列 结构的模型,通常用于自然语言处理和时间序列预测。在 cd pytorch 注意:如果没有安装unzip,则可以通过运行sudo apt install unzip进行安装。 安装完成后我们可以通过运行以下命令打开Jupyter笔记本(在Window系统的命令行窗口中运行以下命令前, 需先将当前路径定位到刚下载的本书代码解压后的目录): jupyter notebook 9 https://developer.nvidia.com/cuda‐downloads0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-12机器学习-关联规则如果某个项集是频繁的,那么它的所有子集也是频繁的。 11 2.Apriori算法 算法流程 输入:数据集合D,支持度阈值? 输出:最大的频繁k项集 1)扫描整个数据集,得到所有出现过的数据,作为候选频繁1项集。k=1,频繁0项集为空集。 2)挖掘频繁k项集 a) 扫描数据计算候选频繁k项集的支持度 b) 去除候选频繁k项集中支持度低于阈值的数据集,得到频繁k项集。如果得到的频繁k项集 为空,则直接返回 2.Apriori算法 Apriori算法缺点 Apriori 在计算的过程中有以下几个缺点: 可能产生大量的候选集。因为采用排列组合的方式,把可能的项集都 组合出来了; 每次计算都需要重新扫描数据集,来计算每个项集的支持度。 25 3.FP-Growth算法 01 关联规则概述 02 Apriori 算法 03 FP-Growth算法 26 3.FP-Growth算法 i原理的,通过将数据集存储在FP(Frequent Pattern)树上发现频繁项集,但不能发现数据之间的关联规则。 FP-growth算法只需要对数据库进行两次扫描,而Apriori算法在求每个潜在 的频繁项集时都需要扫描一次数据集,所以说Apriori算法是高效的。其中 算法发现频繁项集的过程是: (1)构建FP树; (2)从FP树中挖掘频繁项集。 28 3.FP-Growth算法0 码力 | 49 页 | 1.41 MB | 1 年前3
共 37 条
- 1
- 2
- 3
- 4













