动手学深度学习 v2.0包含d个特征时,我们将预测结果ˆy (通常使用“尖角”符号表示y的估计值)表示为: ˆy = w1x1 + ... + wdxd + b. (3.1.2) 将所有特征放到向量x ∈ Rd中,并将所有权重放到向量w ∈ Rd中,我们可以用点积形式来简洁地表达模型: ˆy = w⊤x + b. (3.1.3) 在 (3.1.3)中,向量x对应于单个数据样本的特征。用符号表示的矩阵X ∈ Rn×d 图3.4.1: softmax回归是一种单层神经网络 为了更简洁地表达模型,我们仍然使用线性代数符号。通过向量形式表达为o = Wx + b,这是一种更适合数 学和编写代码的形式。由此,我们已经将所有权重放到一个3 × 4矩阵中。对于给定数据样本的特征x,我们 的输出是由权重与输入特征进行矩阵‐向量乘法再加上偏置b得到的。 106 3. 线性神经网络 3.4.3 全连接层的参数开销 正如我 交互作用。对于每个特征,线性模型必须指定正的或负的权重,而忽略其他特征。 泛化性和灵活性之间的这种基本权衡被描述为偏差-方差权衡(bias‐variance tradeoff)。线性模型有很高的 偏差:它们只能表示一小类函数。然而,这些模型的方差很低:它们在不同的随机数据样本上可以得出相似 的结果。 深度神经网络位于偏差‐方差谱的另一端。与线性模型不同,神经网络并不局限于单独查看每个特征,而是学 习特征之间的交0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-05机器学习-机器学习实践2022年02月 机器学习-机器学习实践 黄海广 副教授 2 01 数据集划分 02 评价指标 03 正则化、偏差和方差 本章目录 3 01 数据集划分 02 评价指标 1.数据集划分 03 正则化、偏差和方差 4 训练集(Training Set):帮助我们训练模型,简单的说就是通过 训练集的数据让我们确定拟合曲线的参数。 验证集(Validation 注于少类样本的分类情况,提高对少类样本分类的查全率,但是也会将很 多多类样本分类为少类样本,降低少类样本分类的查准率。 9 01 数据集划分 02 评价指标 2.评价指标 03 正则化、偏差和方差 10 预测值 Positive Negtive 实际值 Positive TP FN Negtive FP TN 1. 正确肯定(True Positive,TP): 预测为真,实际为真 数据集划分 02 评价指标 3.正则化、偏差和方差 03 正则化、偏差和方差 15 ?1 ?2 梯度 ?1 ?2 梯度 为什么要标准化/归一化? 提升模型精度:不同维度之间的 特征在数值上有一定比较性,可 以大大提高分类器的准确性。 加速模型收敛:最优解的寻优过 程明显会变得平缓,更容易正确 的收敛到最优解。 3.正则化、偏差和方差 16 w1 w1 w2 J0 码力 | 33 页 | 2.14 MB | 1 年前3
机器学习课程-温州大学-05深度学习-深度学习实践1 2023年03月 深度学习-深度学习实践 黄海广 副教授 2 01 数据集划分 02 数据集制作 03 数据归一化/标准化 04 正则化 05 偏差和方差 本章目录 3 训练集(Training Set):帮助我们训练模型,简单的说就是通过 训练集的数据让我们确定拟合曲线的参数。 验证集(Validation Set):也叫做开发集( Dev 器中进行批量的数据增强。 16 偏差和方差 训练集误差和交叉验证集误差近似时:偏差/欠拟合 交叉验证集误差远大于训练集误差时:方差/过拟合 x1 x2 x1 x2 x1 x2 Underfitting Good fit Overfitting 17 偏差和方差 1. 获得更多的训练实例——解决高方差 2. 尝试减少特征的数量——解决高方差 3. 尝试获得更多的特征——解决高偏差 4. 尝试增加多项式特征——解决高偏差 尝试增加多项式特征——解决高偏差 5. 尝试减少正则化程度λ——解决高偏差 6. 尝试增加正则化程度λ——解决高方差 x1 x2 18 参考文献 1. IAN GOODFELLOW等,《深度学习》,人民邮电出版社,2017 2. Andrew Ng,http://www.deeplearning.ai 19 谢 谢!0 码力 | 19 页 | 1.09 MB | 1 年前3
机器学习课程-温州大学-08机器学习-集成学习自助采样法;随机选择特征是 指在每个节点在分裂过程中都是随机选择特 征的(区别与每棵树随机选择一批特征)。 这种随机性导致随机森林的偏差会有稍微的 增加(相比于单棵不随机树),但是由于随 机森林的“平均”特性,会使得它的方差减 小,而且方差的减小补偿了偏差的增大,因 此总体而言是更好的模型。 随机森林 数据集 自助采样 自助采样 自助采样 Bootstraping 10 20 码力 | 50 页 | 2.03 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112关方向的研究论文或资料,进一步学 习。 深度学习是一个非常前沿和广袤的研究领域,鲜有人士能够对每一个研究方向都有深刻 的理解。作者自认才疏学浅,略懂皮毛,同时也限于时间和篇幅关系,难免出现理解偏差甚 至错缪之处,若能大方指出,作者将及时修正,不胜感激。 龙良曲 2021 年 10 月 19 日 预览版202112 声 明 得益于简洁优雅的设计理念,基于动态图的 PyTorch 尽管深度学习对数据集需求较高,收集数据,尤其是收集带标签的数据,往往是代价 昂贵的。数据集的形成通常需要手动采集、爬取原始数据,并清洗掉无效样本,再通过人 类智能去标注数据样本,因此不可避免地引入主观偏差和随机误差。研究数据量需求较少 的算法模型是非常有用的一个方向。 预览版202112 第 1 章 人工智能绪论 8 图 1.10 数据集样本数趋势 图 1.11 ?~?(?, ?2) 一旦引入观测误差后,即使简单如线性模型,如果仅采样两个数据点,则可能会带来较大 估计偏差。如图 2.4 所示,图中的数据点均带有观测误差,如果基于蓝色矩形块的两个数 据点进行估计,则计算出的蓝色虚线与真实橙色直线存在较大的偏差。为了减少观测误差 引入的估计偏差,通常可以通过采样多组数据样本集合? = {(?(1), ?(1)),(?(2),?(2)),… , (?(?)0 码力 | 439 页 | 29.91 MB | 1 年前3
pytorch 入门笔记-03- 神经网络loss.backward() 获得反向传播的误差。 但是在调用前需要清除已存在的梯度,否则梯度将被累加到已存在的梯度。 现在,我们将调用 loss.backward(),并查看 conv1 层的偏差(bias)项在反向传播前后的梯度。 net.zero_grad() 原文链接:pytorch 入门笔记 -03- 神经网络 print('conv1.bias.grad before backward')0 码力 | 7 页 | 370.53 KB | 1 年前3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 01 背景知识 02 模型介绍 04 模型的缺点与改进 05 模型的代码实现 28 ViT缺点 Vision Transformer比CNN具有更少的图像特异性归纳偏差。 在CNN中,局部性、二维邻域结构和平移等方差被融入到整个模型的每一层中。 在ViT中,只有MLP层是局部的、平移等变的,而自注意层是全局的。 二维邻域结构的使用非常少:在模型的开始通过将图像分割成小块,在微调时调整不同分辨率图0 码力 | 34 页 | 2.78 MB | 1 年前3
超大规模深度学习在美团的应用-余建平sampling 样本 & 特征设计 • 特征设计 用户侧:能设计完整的特征,个性化,实时特征 Item侧:预计算带来的副作用,不能使用实时特征 点击(+) 仅曝光 同地域 全体集合 分布偏差大 无效信息多 样本分布 • 在线、近线、离线全流程解决方案 召回模型通路 • 粗排模型 • 精排模型 排序模型解决方案 • 粗排阶段的特点 候选集大,通常在千到万级别 线上的响应时间要求高,通常在几到十几ms0 码力 | 41 页 | 5.96 MB | 1 年前3
共 8 条
- 1













