数据处理引擎 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

微博在线机器学习和深度学习实践-黄波

process process output WeiFlow 工作流 Task 模型训练 Task 模型训练 Task Metrics输出 3 在线机器学习-工作流互动行为日志数据处理点击行为日志阅读行为日志曝光行为日志数据过滤样本拼接定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光，互动，点击，真实阅读等多种数据流接入并多流拼接异构CPU集群 kubernetes/ol-submit RPC服务框架 LR/GBDT DNN/DeepFM/W&D 负载均衡/统一版本管理/动态加载/批量化机制特征映射 Embedding 数据处理异构GPU集群 CNN 业务应用模型服务框架排序模型服务多媒体分析服务自然语言分析服务集群调度层核心架构层算法模型层 4 深度学习-分布式模型推理 • 推理性能优化 • 加快计算速度： batching/TensorRT/MPS/SSE/AVX/Neon • operator fusion • 针对特定场景重写耗时算子 • 重构tensorflow计算引擎 • batching • 批量调度请求到GPU，增大并发和吞吐量 4 深度学习-分布式模型推理 • 深度特征效果对比 • 文本Embedding特征，相比于文本标签，相关指标提升约3+%

0 码力 | 36 页 | 16.69 MB | 1 年前
3
机器学习课程-温州大学-03深度学习-PyTorch入门

每当对Tensor施加一个运算的时候，就会产生一个Function对象，它产生运算的结果，记录运算的发生，并且记录运算的输入。Tensor使用 .grad_fn属性记录这个计算图的入口。反向传播过程中，autograd引擎会按照逆序，通过Function的backward依次计算梯度。 22 2. Autograd自动求导 backward函数 backward函数是反向传播的入口点，在需要被求导的节点上调用被自动的注册为参数。 autograd.Function-实现一个自动求导操作的前向和反向定义, 每个张量操作都会创建至少一个Function节点，该节点连接到创建张量并对其历史进行编码的函数。 33 数据处理工具箱 34 4. 训练一个分类器 01 Tensors张量 02 Autograd自动求导 03 神经网络 04 训练一个分类器 35 4. 训练一个分类器

0 码力 | 40 页 | 1.64 MB | 1 年前
3
动手学深度学习 v2.0

流程，所以我们不得不自行组装。我们在 16.5节中详细描述了我们的方法。我们选择GitHub来共享源代码并允许编辑，选择Jupyter记事本来混合代码、公式和文本，选择Sphinx作为渲染引擎来生成多个输出，并为论坛提供讨论。虽然我们的体系尚不完善，但这些选择在相互冲突的问题之间提供了一个很好的妥协。我们相信，这可能是第一本使用这种集成工作流程出版的书。 1 http://distill 零编写的。比如，现在开发人员要编写一个程序来管理网上商城。经过思考，开发人员可能提出如下一个解决方案：首先，用户通过Web浏览器（或移动应用程序）与应用程序进行交互；紧接着，应用程序与数据库引擎进行交互，以保存交易历史记录并跟踪每个用户的动态；其中，这个应用程序的核心——“业务逻辑”，详细说明了应用程序在各种情况下进行的操作。为了完善业务逻辑，开发人员必须细致地考虑应用程序所有可能遇到的边界情况，并为这些边界情况设计合每个元素分配相应的相关性分数，然后检索评级最高的元素。 PageRank15，谷歌搜索引擎背后最初的秘密武器就是这种评分系统的早期例子，但它的奇特之处在于它不依赖于实际的查询。在这里，他们依靠一个简单的相关性过滤来识别一组相关条目，然后根据PageRank对包含查询条件的结果进行排序。如今，搜索引擎使用机器学习和用户行为模型来获取网页相关性得分，很多学术会议也致力于这一主题。推荐系统

0 码力 | 797 页 | 29.45 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 4 1.词汇表征和文本数据处理 5 1.词汇表征和文本数据处理 6 1.词汇表征和文本数据处理 7 1.词汇表征和文本数据处理 8 2.词嵌入词嵌入 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 9 2.词嵌入 “Sally Johnson is an orange farmer.” “Robert Lin is an apple farmer.” 10 2.词嵌入如何用词嵌入做迁移学习的步骤。第一步，先从大量的文本集中学习词嵌入。 13 2.词嵌入嵌入矩阵 14 3.Word2Vec 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据（例如，所有维基百科文章）。然后 2.我们有一个窗口（比如说三个单词），我们会对所有文本进行滑动。

0 码力 | 44 页 | 2.36 MB | 1 年前
3
《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别

第六部分实战 TensorFlow 验证码识别扫描二维码试看/购买《TensorFlow 快速入门与实战》视频课程 • 准备模型开发环境 • 生成验证码数据集 • 输入与输出数据处理 • 模型结构设计 • 模型损失函数设计 • 模型训练过程分析 • 模型部署与效果演示第六部分目录准备模型开发环境第三方依赖包数据集生成 • Pillow • captcha “Hello TensorFlow” Try it 输入与输出数据处理输入数据处理图像处理：RGB图 -> 灰度图 -> 规范化数据输入数据处理适配 Keras 图像数据格式：“channels_frist” 或 “channels_last” 输出数据处理 One-hot 编码：验证码转向量输出数据处理解码：模型输出向量转验证码 argmax “Hello TensorFlow”

0 码力 | 51 页 | 2.73 MB | 1 年前
3
《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测

方法专门用于绘制3维的散点图。数据归一化（3D）数据处理：NumPy NumPy 是一个 BSD 开源协议许可的，面向 Python 用户的基础科学计算库，在多维数组上实现了线性代数、傅立叶变换和其他丰富的函数运算。 X y 创建线性回归模型（数据流图）创建会话（运行环境）使用 TensorBoard 可视化模型数据流图 TensorBoard 可视化工具在数据处理过程中，用户通常想要可视化地直观查看数据集分布情况。 VS ✅ 名字作用域与抽象节点创建 FileWriter 实例启动 TensorBoard 实战 TensorFlow 房价预测实战 TensorFlow 房价预测工作流数据处理设计模型 (数据流图) 可视化数据流图训练模型 “Hello TensorFlow” Try it 扫描二维码试看/购买《TensorFlow 快速入门与实战》视频课程

0 码力 | 46 页 | 5.71 MB | 1 年前
3
PyTorch OpenVINO 开发实战系列教程第一篇

完成全部代码构建与程序演示。本章的主要目标是帮助初次接触 Python 与 Pytorch 的读者搭建好开发环境，认识与理解 Pytorch 框架中常见的基础操作函数、学会使用它们完成一些基础的数据处理与流程处理，为后续内容学习打下良好基础。好了，下面就让我们来一起开启这段 Pytorch 框架的深度学习破冰之旅。 PyTorch + OpenVINO 开发实战系列教程第一篇 2 (Sequential)、功能函数 (functional)、损失功能、支持自定义的模型类（Module）等。通过它们就可以实现大多数的模型结构搭建与生成。 2）torch.utils 包，里面主要包括训练模型的输入数据处理类、 pytorch 自带的模型库、模型训练时候可视化支持组件、检查点与性能相关的组件功能。重要的类有数据集类（Dataset）, 数据加载类 (DataLoader)、自定义编程的可视化支持组件

0 码力 | 13 页 | 5.99 MB | 1 年前
3
构建基于富媒体大数据的弹性深度学习计算平台

构建基于富媒体大数据的弹性深度学习计算平台 SPEAKER / 土土@七牛 AtLab Mobile —> 富媒体时代数据存储数据加速数据处理直播点播 Connect 每天超过10亿图像上传超过万亿小时的音视频存储 What are they？内容审核团队运营分析团队 AI？ Content 分类检测分割跟踪描述搜索分析 …

0 码力 | 21 页 | 1.71 MB | 1 年前
3
《TensorFlow 2项目进阶实战》1-基础理论篇：TensorFlow 2设计思想

Keras • 支持保存和加载 TensorFlow SavedModel • 支持 Eager Execution • 支持分布式训练 tf.data：功能强大的数据管理模块支持多种数据处理图像解码 Shuffle py_function 重采样支持多种数据格式图像文件文本文件 CSV 文件 NumPy 数组 Python 生成器 TFRecord 支持多种数据来源

0 码力 | 40 页 | 9.01 MB | 1 年前
3
机器学习课程-温州大学-Scikit-learn

自2007年发布以来，scikit-learn已经成为Python重要的机器学习库了， scikit-learn简称sklearn，支持包括分类，回归，降维和聚类四大机器学习算法。还包括了特征提取，数据处理和模型评估三大模块。 5 6 2.Scikit-learn主要用法 01 Scikit-learn概述 02 Scikit-learn主要用法 03 Scikit-learn案例

0 码力 | 31 页 | 1.18 MB | 1 年前
3

共 23 条前往

页

分类

语言

格式