标签 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

有“智能”； 2. 获取一些数据样本（例如，音频片段以及对应的是或否标签）； 3. 调整参数，使模型在这些样本中表现得更好； 4. 重复第（2）步和第（3）步，直到模型在任务中的表现令人满意。图1.1.2: 一个典型的训练过程总而言之，我们没有编写唤醒词识别器，而是编写了一个“学习”程序。如果我们用一个巨大的带标签的数据集，它很可能可以“学习”识别唤醒词。这种“通过用数据集来确定程序行为”的方法可以被看作用数据 instance），通常每个样本由一组称为特征（features，或协变量（covariates））的属性组成。机器学习模型会根据这些属性进行预测。在上面的监督学习问题中，要预测的是一个特殊的属性，它被称为标签（label，或目标（target））。当处理图像数据时，每一张单独的照片即为一个样本，它的特征由每个像素数值的有序列表表示。比如， 200 × 200彩色照片由200 × 200 × 3 = learning）擅长在“给定输入特征”的情况下预测标签。每个“特征‐标签”对都称为一个样本（example）。有时，即使标签是未知的，样本也可以指代输入特征。我们的目标是生成一个模型，能够将任何输入特征映射到标签（即预测）。举一个具体的例子：假设我们需要预测患者的心脏病是否会发作，那么观察结果“心脏病发作”或“心脏病没有发作”将是样本的标签。输入特征可能是生命体征，如心率、舒张压和收缩压等。

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

有监督学习有监督学习的数据集包含了样本?与样本的标签?，算法模型需要学习到映射关系??: ? → ?，其中??代表模型函数，?为模型的参数。在训练时，通过计算模型的预测值??(?)与真实标签?之间的误差来优化网络参数?，使得网络下一次能够预测更精准。常见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。无监督学习收集带标签的数据往往代价较为昂贵，对于只有样本?的数据集，算法需 14197122 张图片，整个数据集的压缩文件大小就有 154GB。图 1.10、图 1.11 列举了一些数据集的样本数和数据集大小随时间的变化趋势。尽管深度学习对数据集需求较高，收集数据，尤其是收集带标签的数据，往往是代价昂贵的。数据集的形成通常需要手动采集、爬取原始数据，并清洗掉无效样本，再通过人类智能去标注数据样本，因此不可避免地引入主观偏差和随机误差。研究数据量需求较少的算法模型是非常有用的一个方向。像素的行和 224 个像素的列(224 × 224)，或者 96 个像素的行和 96 个像素的列(96 × 96)，图片样本将作为输入数据 x。同时，还需要给每一张图片标注一个标签(Label)信息，它将作为图片的真实值?，这个标签表明这张图片属于哪一个具体的类别，一般通过映射方式将类别名一一对应到某个从 0 开始编号的数字，比如说硬币的正反面，可以用 0 来表示硬币的反面，用 1 来表示硬币的正面，当然也可以反过来

0 码力 | 439 页 | 29.91 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy', mean_pred]) 3.1.4 训练 Keras 模型在输入数据和标签的 Numpy 矩阵上进行训练。为了训练一个模型，你通常会使用 fit 函数。文档详见此处。 # 对于具有 2 个类的单输入模型（二进制分类）：快速开始 10 model = Sequential() numpy as np data = np.random.random((1000, 100)) labels = np.random.randint(10, size=(1000, 1)) # 将标签转换为分类的 one-hot 编码 one_hot_labels = keras.utils.to_categorical(labels, num_classes=10) # 训练模型，以 32 数组。如果模型中的输入层被命名，你也可以传递一个字典，将输入层名称映射到 Numpy 数组。如果从本地框架张量馈送（例如 TensorFlow 数据张量）数据，x 可以是 None（默认）。 • y: 目标（标签）数据的 Numpy 数组。如果模型中的输出层被命名，你也可以传递一个字典，将输出层名称映射到 Numpy 数组。如果从本地框架张量馈送（例如 TensorFlow 数据张量）数据，y 可以是

0 码力 | 257 页 | 1.19 MB | 1 年前
3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

• conitnues特征 • one-hot 表示 • 假设检验方式 • 相关系数评估 • 特征组合 • GBDT+互信息——有效挖掘非线性特征及组合皮尔逊相关系数特征评估标签匹配度特征相关系数特征评估样本采集 Ø 存在问题 • 头部效应 • 实时反馈类收集与在线存在差异性 Ø 解决方案 • 正负样本比例严重失衡 • 对头部曝光进行降采样，长尾曝光上采样小流量-对照组数据对比分析算法架构互动行为点击行为阅读行为能力标签兴趣标签亲密度自然属性账号属性用户特征关键词类型属性 topic 内容标签内容质量内容特征组合特征标签匹配度用户互动率协同特征实时互动率 app互动率微博内容关注数据用户信息视觉标签打码日志社交关系用户特征发博流互动流曝光流模型服务

0 码力 | 21 页 | 2.14 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

社交图像分类应用：微云，相册管家 Ø 标签体系：面向社交领域的热词标签200余种，涵盖人物、风景、人造物、建筑、动植物、食物等9个大类。 Ø 技术指标：20个类别平均准确率MAP>90%以上，200种MAP>63%以上，性能CPU上约200ms/张。微云相册，相册管家识别标签效果 Ø 微云，相册管家新版本推出智能全自动图片分类，通过上百种常用图片标签，实现对所有照片的自动识别分类。。 Ø 用户上传图片之后即可被智能分类，各大类下包括小类如人物大类下有合影、女孩、男孩、聚会等小标签。只需要输入或点击标签即可获取对应类别的图片。 l 图片场景识别技术 SACC2017 OCR识别 – 证件类 Ø 优图OCR识别技术支持数字识别和超过7000个常用汉字的识别 Ø 在国际ICDAR 2015文本检测项目中刷新世界纪录 Ø 技术指标：名片91.4%，驾驶证91

0 码力 | 32 页 | 5.17 MB | 1 年前
3
全连接神经网络实战. pytorch 版

ytorch 中有两个模块是用来导入数据的：torch.utils.data.Dataset 以及 torch.utils.data.DataLoader。 Dataset 存储样本以及它们的标签等信息，Dataset 可以使用预加载的数据集（例如 mnist），也可以使用自定义的数据集；而 DataLoader 是把样本进行访问和索引的工具，它实现了迭代器功能，也就是说它可以依次将的对象，它返回的数据就是 pytorch 的 Dataset 类型的。参数 transf orm 表示导出的数据应该怎么转换，我们还可以使用参数 target_transf orm 表示导出的数据标签应该怎么转换。注意显示时我们调用了 squeeze() 函数，这是因为原来的数据维度是 (1,28,28) 的三维数据，使用.squeeze() 函数可以把为 1 的维度去掉，即 shape ndarray 转换为 FloatTensor 类型的，并且把图像的每个像素值压缩到 [0.0,1.0] 之间。 target_transf orm 10 1.2. 导入样本数据是标签的转换，分类中我们需要将标签表示为向量的形式，例如一共有三类，则表示为： [1 0 0] (1.2.1) [0 1 0] (1.2.2) [0 0 1] (1.2.3) Lambda 函数就是应用用户定义的

0 码力 | 29 页 | 1.40 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练：Flink/Blink+WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 2.标签UDF 3.样本过滤 4.特征过滤模型训练 1.支持回归和分类 2.支持LR、FM、 DeepFM等模型 3.支持SGD 、 FTRL 、 Adagrad等优化算法深度学习-分布式模型推理 • 深度特征效果对比 • 文本Embedding特征，相比于文本标签，相关指标提升约3+% • 基于word2vec、bert等生成embedding向量，提高了语义编码的准确性，降低了训练成本 • 指标提升主要来源于Embedding特征保留了更多原始信息，避免了标签带来的信息损失 • User/Item Embedding 协同召回 • Item2vec相

0 码力 | 36 页 | 16.69 MB | 1 年前
3
机器学习课程-温州大学-Scikit-learn

X_train | 训练数据. X_test | 测试数据. X | 完整数据. 符号标记 2.Scikit-learn主要用法 y_train | 训练集标签. y_test | 测试集标签. y | 数据标签. 8 2.Scikit-learn主要用法导入工具包 from sklearn import datasets, preprocessing from sklearn 处理后的数据均值为0，方差为1 12 2.Scikit-learn主要用法使用Scikit-learn进⾏数据变换数据预处理最小最大标准化 One-Hot编码归一化二值化（单个特征转换）标签编码缺失值填补多项式特征生成 MinMaxScaler OneHotEncoder Normalizer Binarizer LabelEncoder Imputer PolynomialFeatures

0 码力 | 31 页 | 1.18 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

知识图谱关系抽取：基于联合标注三类标签 • 单词在实体中的位置{B(begin),I(inside),E(end),S(single)} • 关系类型{CF,CP,...} • 关系角色{1(entity1),2(entity2)} 根据标签序列，将同样关系类型的实体合并成一个三元组作为最后的结果，如果一个句子包含一个以上同一类型的关系，那么就采用就近原则来进行配对。目前这套标签并不支持实体关系重叠的情况。目前这套标签并不支持实体关系重叠的情况。 B-CP-1 O B-CP-2 E-CP-2 O B-CF-1 I-CF-1 O O O I-CF-2 O O 标签： E-CP-1 O I-CP-2 O O I-CF-1 E-CF-1 O O B-CF-2 E-CF-2 O 输出： (美国,国家-总统,特朗普) (苹果公司,公司-创立者,乔布斯) 输入：美国总统特朗普将考察苹果公司 , 该公司由

0 码力 | 46 页 | 25.61 MB | 1 年前
3
机器学习课程-温州大学-01机器学习-引言

Error)作为模型评估的标准。测试误差的具体定义为：????? = 1 ?′ ෍ ?=1 ?′ L ??, መ? ?? 其中，?′为测试数据数量，L(??, መ?(??))是损失函数，??代表真实标签， መ?(??)代表预测标签。一般来说，若我们模型学习的效果好，则训练误差和测试误差接近一致。 27 3. 机器学习的背景知识 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 Python模块-Pandas ⚫ 数据索引 df[5:10] 通过切片方式选取多行 df[col_label] or df.col_label 选取列 df.loc[row_label, col_label] 通过标签选取行/列 df.iloc[row_loc, col_loc] 通过位置（自然数）选取行/列 65 Python模块-Pandas ⚫ 数据合并 pd.merge(left, right) 是图形的最高容器，所有图形必须放置在绘图框中. 子图是绘图框中所包含的图形，即便绘图框只包含一幅图，也称之为子图. 元素是组成子图的部件，从子图最内部的数据线条到外围的坐标轴标签等都属于元素 71 Python模块-Matplotlib 图形样式 72 4. 机器学习的开发流程 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识

0 码力 | 78 页 | 3.69 MB | 1 年前
3

共 32 条前往

页

分类

语言

格式

动手学深度学习 v2.0

【PyTorch深度学习-龙龙老师】-测试版202112

Keras: 基于 Python 的深度学习库

QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

谭国富：深度学习在图像审核的应用

全连接神经网络实战. pytorch 版

微博在线机器学习和深度学习实践-黄波

机器学习课程-温州大学-Scikit-learn

Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

机器学习课程-温州大学-01机器学习-引言