微博在线机器学习和深度学习实践-黄波process process output WeiFlow 工作流 Task 模型训练 Task 模型训练 Task Metrics输出 3 在线机器学习-工作流 互动行为日志 数据处理 点击行为日志 阅读行为日志 曝光行为日志 数据过滤 样本拼接 定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 异构CPU集群 kubernetes/ol-submit RPC服务框架 LR/GBDT DNN/DeepFM/W&D 负载均衡/统一版本管理/动态加载/批量化机制 特征映射 Embedding 数据处理 异构GPU集群 CNN 业务应用 模型服务 框架 排序模型服务 多媒体分析服务 自然语言分析服务 集群调度层 核心架构层 算法模型层 4 深度学习-分布式模型推理 • 推理性能优化 • 加快计算速度: batching/TensorRT/MPS/SSE/AVX/Neon • operator fusion • 针对特定场景重写耗时算子 • 重构tensorflow计算引擎 • batching • 批量调度请求到GPU,增大并发和吞吐量 4 深度学习-分布式模型推理 • 深度特征效果对比 • 文本Embedding特征,相比于文本标签,相关指标提升约3+%0 码力 | 36 页 | 16.69 MB | 1 年前3
机器学习课程-温州大学-03深度学习-PyTorch入门每当对Tensor施加一个运算的时候,就会产生一个Function对象,它产生 运算的结果,记录运算的发生,并且记录运算的输入。Tensor使用 .grad_fn属性记录这个计算图的入口。反向传播过程中,autograd引擎会 按照逆序,通过Function的backward依次计算梯度。 22 2. Autograd自动求导 backward函数 backward函数是反向传播的入口点,在需要被求导的节点上调用 被自动的注册为参数。 autograd.Function-实现一个自动求导操作的前向和反向定义, 每个张量操作都会 创建至少一个Function节点,该节点连接到创建张量并对其历史进行编码的函数。 33 数据处理工具箱 34 4. 训练一个分类器 01 Tensors张量 02 Autograd自动求导 03 神经网络 04 训练一个分类器 35 4. 训练一个分类器0 码力 | 40 页 | 1.64 MB | 1 年前3
动手学深度学习 v2.0流程,所以我 们不得不自行组装。我们在 16.5节 中详细描述了我们的方法。我们选择GitHub来共享源代码并允许编辑,选 择Jupyter记事本来混合代码、公式和文本,选择Sphinx作为渲染引擎来生成多个输出,并为论坛提供讨论。 虽然我们的体系尚不完善,但这些选择在相互冲突的问题之间提供了一个很好的妥协。我们相信,这可能是 第一本使用这种集成工作流程出版的书。 1 http://distill 零编写的。比如,现在开发人员要编写一个程序 来管理网上商城。经过思考,开发人员可能提出如下一个解决方案:首先,用户通过Web浏览器(或移动应 用程序)与应用程序进行交互;紧接着,应用程序与数据库引擎进行交互,以保存交易历史记录并跟踪每个 用户的动态;其中,这个应用程序的核心——“业务逻辑”,详细说明了应用程序在各种情况下进行的操作。 为了完善业务逻辑,开发人员必须细致地考虑应用程序所有可能遇到的边界情况,并为这些边界情况设计合 每个元素分配相应的相关性分数,然后检索评级最高的元素。 PageRank15,谷歌搜索引擎背后最初的秘密武器就是这种评分系统的早期例子,但它的奇特之处在于它不依 赖于实际的查询。在这里,他们依靠一个简单的相关性过滤来识别一组相关条目,然后根据PageRank对包含 查询条件的结果进行排序。如今,搜索引擎使用机器学习和用户行为模型来获取网页相关性得分,很多学术 会议也致力于这一主题。 推荐系统0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 4 1.词汇表征和文本数据处理 5 1.词汇表征和文本数据处理 6 1.词汇表征和文本数据处理 7 1.词汇表征和文本数据处理 8 2.词嵌入 词嵌入 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 9 2.词嵌入 “Sally Johnson is an orange farmer.” “Robert Lin is an apple farmer.” 10 2.词嵌入 如何用词嵌入做迁移学习的步骤。 第一步,先从大量的文本集中学习词嵌入。 13 2.词嵌入 嵌入矩阵 14 3.Word2Vec 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据(例如,所 有维基百科文章)。然后 2.我们有一个窗口(比如说三个单词) ,我们会对所有文本进行滑动。0 码力 | 44 页 | 2.36 MB | 1 年前3
《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别第六部分 实战 TensorFlow 验证码识别 扫描二维码 试看/购买《TensorFlow 快速入门与实战》视频课程 • 准备模型开发环境 • 生成验证码数据集 • 输入与输出数据处理 • 模型结构设计 • 模型损失函数设计 • 模型训练过程分析 • 模型部署与效果演示 第六部分 目录 准备模型开发环境 第三方依赖包 数据集生成 • Pillow • captcha “Hello TensorFlow” Try it 输入与输出数据处理 输入数据处理 图像处理:RGB图 -> 灰度图 -> 规范化数据 输入数据处理 适配 Keras 图像数据格式:“channels_frist” 或 “channels_last” 输出数据处理 One-hot 编码:验证码转向量 输出数据处理 解码:模型输出向量转验证码 argmax “Hello TensorFlow”0 码力 | 51 页 | 2.73 MB | 1 年前3
《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测方法专门用于绘制3维的散点图。 数据归一化(3D) 数据处理:NumPy NumPy 是一个 BSD 开源协议许可的,面向 Python 用户的基础科学计算库,在多 维数组上实现了线性代数、傅立叶变换和其他丰富的函数运算。 X y 创建线性回归模型(数据流图) 创建会话(运行环境) 使用 TensorBoard 可视化模型数据流图 TensorBoard 可视化工具 在数据处理过程中,用户通常想要可视化地直观查看数据集分布情况。 VS ✅ 名字作用域与抽象节点 创建 FileWriter 实例 启动 TensorBoard 实战 TensorFlow 房价预测 实战 TensorFlow 房价预测 工作流 数据处理 设计模型 (数据流图) 可视化 数据流图 训练模型 “Hello TensorFlow” Try it 扫描二维码 试看/购买《TensorFlow 快速入门与实战》视频课程0 码力 | 46 页 | 5.71 MB | 1 年前3
PyTorch OpenVINO 开发实战系列教程第一篇完成全部代码构建与程序演示。本章的主要目标是帮助初 次接触 Python 与 Pytorch 的读者搭建好开发环境,认识与理解 Pytorch 框架 中常见的基础操作函数、学会使用它们完成一些基础的数据处理与流程处理, 为后续内容学习打下良好基础。 好了,下面就让我们来一起开启这段 Pytorch 框架的深度学习破冰之旅。 PyTorch + OpenVINO 开发实战系列教程 第一篇 2 (Sequential)、功能函数 (functional)、损 失功能、支持自定义的模型类(Module)等。通过它们就可 以实现大多数的模型结构搭建与生成。 2)torch.utils 包,里面主要包括训练模型的输入数据处理类、 pytorch 自带的模型库、模型训练时候可视化支持组件、检查 点与性能相关的组件功能。重要的类有数据集类(Dataset), 数据加载类 (DataLoader)、自定义编程的可视化支持组件0 码力 | 13 页 | 5.99 MB | 1 年前3
构建基于富媒体大数据的弹性深度学习计算平台构建基于富媒体大数据的弹性深度学 习计算平台 SPEAKER / 土土@七牛 AtLab Mobile —> 富媒体时代 数据存储 数据加速 数据处理 直播 点播 Connect 每天超过10亿图像上传 超过万亿小时的音视频存储 What are they? 内容审核团队 运营分析团队 AI? Content 分类 检测 分割 跟踪 描述 搜索 分析 …0 码力 | 21 页 | 1.71 MB | 1 年前3
《TensorFlow 2项目进阶实战》1-基础理论篇:TensorFlow 2设计思想Keras • 支持保存和加载 TensorFlow SavedModel • 支持 Eager Execution • 支持分布式训练 tf.data:功能强大的数据管理模块 支持多种数据处理 图像解码 Shuffle py_function 重采样 支持多种数据格式 图像文件 文本文件 CSV 文件 NumPy 数组 Python 生成器 TFRecord 支持多种数据来源0 码力 | 40 页 | 9.01 MB | 1 年前3
机器学习课程-温州大学-Scikit-learn自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了, scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学 习算法。还包括了特征提取,数据处理和模型评估三大模块。 5 6 2.Scikit-learn主要用法 01 Scikit-learn概述 02 Scikit-learn主要用法 03 Scikit-learn案例0 码力 | 31 页 | 1.18 MB | 1 年前3
共 23 条
- 1
- 2
- 3













