动手学深度学习 v2.01 重新审视过拟合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 4.6.2 扰动的稳健性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 4.6.3 实践中的暂退法 . . 掩蔽softmax操作 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394 10.3.2 加性注意力 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395 10.3.3 缩放点积注意力 428 11.1.2 深度学习中的优化挑战 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 429 11.2 凸性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4330 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-机器学习项目流程机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后 的数据清理一般是由计算机而不是人工完成。 9 2.数据清洗 不合法值 空 值 异常检测 重复处理 拼写错误 命名习惯 数理统计技术 数据挖掘技术 探索性数据分析(EDA) 探索性数据分析(EDA)是一个开放式流程,我们制作绘图并计算 统计数据,以便探索我们的数据。 •目的是找到异常,模式,趋势或关系。 这些可能是有趣的(例如, 找到两个变量之间的相关性),或者它们可用于建模决策,例如使 用哪些特征。 •简而言之,EDA的目标是确定我们的数据可以告诉我们什么! 探索性数据分析(EDA) 11 探索性数据分析(EDA) 单变量图显示此变量的分布 Q3-Q1,即上四分位数与下四分位数之间的 差,也就是盒子的长度。 最小观测值为min = Q1 - 1.5*IQR,如果存在离群点 小于最小观测值,则下限为最小观测值,离群点单 独以点汇出。 最大观测值为max = Q3 +1.5*IQR,如果存在离群 点大于最大观测值,则上限为最大观测值,离群点 单独以点汇出。如果没有比最大观测值大的数,则 上限为最大值。 14 探索性数据分析(EDA)0 码力 | 26 页 | 1.53 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112数学符号推导,其中涉及到少量的概率与统计、线性代数、微积分等数学知识,一般要求读 者对这些数学知识有初步印象或了解即可。比起理论基础,读者需要有少量的编程经验,特 别是 Python 语言编程经验,显得更加重要,因为本书更侧重于实用性,而不是堆砌公式。 总的来说,本书适合于大学三年级左右的理工科本科生和研究生,以及其他对人工智能算法 感兴趣的朋友。 本书共 15 章,大体上可分为 4 个部份:第 1~3 章为第 1 部分,主要介绍人工智能的初 概念以及它们之间的联 系与区别。 1.1.1 人工智能 人工智能是让机器获得像人类一样具有思考和推理机制的智能技术,这一概念最早出 现在 1956 年召开的达特茅斯会议上。这是一项极具挑战性的任务,人类目前尚无法对人脑 的工作机制有全面、科学的认知,希望能制造达到人脑水平的智能机器无疑是难于上青 天。即使如此,在某个方面呈现出类似、接近甚至超越人类智能水平的机器被证明是可行 的。 怎 3 所示。基于规则的系 统一般会编写显式的检测逻辑,这些逻辑通常是针对特定的任务设计的,并不适合其他任 务。传统的机器学习算法一般会人为设计具有一定通用性的特征检测方法,如 SIFT、HOG 特征,这些特征能够适合某一类的任务,具有一定的通用性,但是如何设计特征,以及特 征方法的优劣性非常的关键,同时也比较困难。神经网络的出现,使得人为设计特征这一 部分工作可以让机器自动完成学习,不需要人类干预。但是浅层的神经网络的特征提取能0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-时间序列总结2018年10月 时间间隔 由起始时间戳和 结束时间戳表示 8 创建时间序列 Pandas中,时间戳使用Timestamp(Series派生的子 类)对象表示。 该对象与datetime具有高度的兼容性,可以直接通过 to_datetime()函数将datetime转换为TimeStamp对象。 pd.to_datetime('20180828') 9 创建时间序列 如果传入的是多个d 总经理 想抽查分店8月28日(七夕)的销售情况,如果只是单 独拎出来当天的数据,则这个数据比较绝对,无法很好 地反映出这个日期前后销售的整体情况。 53 数据统计—滑动窗口 为了提升数据的准确性,可以将某个点的取 值扩大到包含这个点的一段区间,用区间内 的数据进行判断。 例如,我们可以将8月24日到9月2日的数据拿出来,求 此区间的平均值作为抽查结果。 54 数据统计—滑动窗口 这个区间就是窗口,它的单位长度为10 center=False, win_ty pe=None, on=None, axis=0, closed=None) ➢ window -- 表示窗口的大小。 ➢ min_periods -- 每个窗口最少包含的观测值数量。 ➢ center -- 是否把窗口的标签设置为居中。 ➢ win_type -- 表示窗口的类型。 ➢ closed -- 用于定义区间的开闭。 58 时序模型—ARIMA 010 码力 | 67 页 | 1.30 MB | 1 年前3
机器学习课程-温州大学-特征工程强调通过特征转换的方式得 到一组具有明显物理或统计 意义的特征 ➢ 有时能发现更有意义的特征 属性 ➢ 从特征集合中挑选一组具 有明显物理或统计意义的 特征子集 ➢ 能表示出每个特征对于模 型构建的重要性 特征提取VS特征选择 1. 相关概念 7 2. 特征构建 01 相关概念 02 特征构建 03 特征提取 04 特征选择 8 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J] ? 处理后的数据均值为0,方差为1 数据归一化的目的是使得各特征对目标变 量的影响一致,会将特征数据进行伸缩变 化,所以数据归一化是会改变特征数据分 布的。 数据标准化为了不同特征之间具备可比性 ,经过标准化变换之后的特征数据分布没 有发生改变。 就是当数据特征取值范围或单位差异较大时 ,最好是做一下标准化处理。 数据规范化 使不同规格的数据转换到同一规格。 2. 特征构建 10 定量特征二值化 (84.0, 99.0] 4 13 2. 特征构建 • 聚合特征构造主要通过对多个特征的分组聚合实现,这些特征通常来 自同一张表或者多张表的联立。 • 聚合特征构造使用一对多的关联来对观测值分组,然后计算统计量。 • 常见的分组统计量有中位数、算术平均数、众数、最小值、最大值、 标准差、方差和频数等。 聚合特征构造 14 2. 特征构建 相对于聚合特征构造依赖于多个特征的分组统计,通常依赖于对于特征本0 码力 | 38 页 | 1.28 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob概率的基本要素 1.1 条件概率和独立性 2. 随机变量 2.1 累积分布函数 2.2 概率质量函数 2.3 概率密度函数 2.4 期望 2.5 方差 2.6 一些常见的随机变量 3. 两个随机变量 3.1 联合分布和边缘分布 3.2 联合概率和边缘概率质量函数 3.3 联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 3.7 期望和协方差 4 (布尔不等式): (全概率定律):如果 , , 是一些互不相交的事件并且它们的并集是 ,那么它们的概率之 和是1 1.1 条件概率和独立性 假设 是一个概率非0的事件,我们定义在给定 的条件下 的条件概率为: 换句话说, )是度量已经观测到 事件发生的情况下 事件发生的概率,两个事件被称为独立事件 当且仅当 (或等价地, )。因此,独立性相当于是说观察到事 件 对于事件 的概率没有任何影响。 ,那 么 只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量 相关联的集合取某个 特定值 的概率为: 图1:一个累计分布函数(CDF) 举例: 假设 是一个随机变量,表示放射性粒子衰变所需的时间。在这种情况下, 具有无限多的可能 值,因此它被称为连续随机变量。我们将 在两个实常数 和 之间取值的概率(其中 )表示为: 2.1 累积分布函数 为了指定处理随机变量时使0 码力 | 12 页 | 1.17 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra向量-向量乘法 2.2 矩阵-向量乘法 2.3 矩阵-矩阵乘法 3 运算和属性 3.1 单位矩阵和对角矩阵 3.2 转置 3.3 对称矩阵 3.4 矩阵的迹 3.5 范数 3.6 线性相关性和秩 3.7 方阵的逆 3.8 正交阵 3.9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩阵的特征值和特征向量 4 将矩阵乘法剖析到如此大的程度似乎有点过分,特别是当所有这些观点都紧跟在我们在本节开头给出的 初始定义(在一行数学中)之后。 这些不同方法的直接优势在于它们允许您在向量的级别/单位而不是标量上进行操作。 为了完全理解线 性代数而不会迷失在复杂的索引操作中,关键是要用尽可能多的概念进行操作。 实际上所有的线性代数都处理某种矩阵乘法,花一些时间对这里提出的观点进行直观的理解是非常必要 的。 除此之外,了解一些更高级别的矩阵乘法的基本属性是很有必要的: 矩阵乘法通常不是可交换的; 也就是说,通常 。 (例如,假设 , ,如果 和 不相等,矩阵乘积 甚至不存在!) 如果您不熟悉这些属性,请花点时间自己验证它们。 例如,为了检查矩阵乘法的相关性,假设 , , 。 注意 ,所以 。 类似地, ,所以 。 因此,所得矩阵的维度一致。 为了表明矩阵乘法是相关的,足 以检查 的第 个元素是否等于 的第 个元素。 我们可以使用矩阵乘法的定义直接0 码力 | 19 页 | 1.66 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)+ ??) 右导数:?′+(?0) = lim ??→0+ ?(?0+??)−?(?0) ?? = lim ?→?0 + ?(?)−?(?0) ?−?0 3.函数的可导性与连续性之间的关系 Th1: 函数?(?)在?0处可微⇔ ?(?)在?0处可导。 Th2:若函数在点?0处可导,则? = ?(?)在点?0处连续,反之则不成立.即函数连续不一定可 导。 Th3: 若? = lim ?→∞ ?(?) ? , ? = lim ?→∞ [?(?) − ??],则 ? = ?? + ?称为? = ?(?)的斜渐 近线。 14.函数凹凸性的判断 Th1: (凹凸性的判别定理)若在 I 上?″(?) < 0(或?″(?) > 0), 则?(?)在 I 上是凸的 (或凹的)。 Th2: (拐点的判别定理 1)若在?0处?″(?) = 0,(或 ?唯一线性表 示。 (3) ?可以由?1, ?2, ⋯ , ??线性表示 ⇔ ?(?1, ?2, ⋯ , ??) = ?(?1,?2, ⋯ , ??, ?) 。 2.有关向量组的线性相关性 (1)部分相关,整体相关;整体无关,部分无关. (2) ① ?个?维向量 ?1, ?2 ⋯ ??线性无关⇔ |[?1?2 ⋯ ??]| ≠ 0, ?个?维向量?1, ?2 ⋯ ??线 性相关0 码力 | 31 页 | 1.18 MB | 1 年前3
超大规模深度学习在美团的应用-余建平秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 • VC维理论 描述模型的学习能力:VC维越大模型越复杂,学习能力越强 机器学习能力 = 数据 + 特征 + 模型 • 数据 海量数据: 美团的亿级用户、千万级POI • 特征 数据并行计算,加速Optimizer计算 • 低频特征过滤 Counting Bloom Filter 概率方式 • 模型数据通路 Base + Delta方式 增量提供ACK机制,确保模型正确性 Parameter Server • 模型数据的统一管理 模型结构 模型参数 PS的参数放置策略 • Ps分布式分片的均衡,避免分片大小不一致 NN网络矩阵按行切分,解决请求包不均衡问题 超大规模模型 -> 高扇出的分布式PS • 长尾效应:单个分片的抖动(网络、CPU)对请求影响变大 单分片4个9的可用性 16分片整体可用性:99.99% ^ 16 = 99.84% 64分片整体可用性:99.99% ^ 64 = 99.36% 128分片整体可用性:99.99% ^ 128 = 98.72% • Backup Request Jeff Dean在解决BigTable高扇出时提出的方案0 码力 | 41 页 | 5.96 MB | 1 年前3
Keras: 基于 Python 的深度学习库误时提供清晰和 可操作的反馈。 • 这使 Keras 易于学习和使用。作为 Keras 用户,你的工作效率更高,能够比竞争对手更快 地尝试更多创意,从而帮助你赢得机器学习竞赛。 • 这种易用性并不以降低灵活性为代价:因为 Keras 与底层深度学习语言(特别是 Ten- sorFlow)集成在一起,所以它可以让你实现任何你可以用基础语言编写的东西。特别是, tf.keras 作为 Keras 模型 有状态的循环神经网络模型中,在一个 batch 的样本处理完成后,其内部状态(记忆)会被记录 并作为下一个 batch 的样本的初始状态。这允许处理更长的序列,同时保持计算复杂度的可控 性。 你可以在 FAQ 中查找更多关于 stateful RNNs 的信息。 from keras.models import Sequential from keras.layers import 3.2.5 共享网络层 函数式 API 的另一个用途是使用共享网络层的模型。我们来看看共享层。 来考虑推特推文数据集。我们想要建立一个模型来分辨两条推文是否来自同一个人(例如, 通过推文的相似性来对用户进行比较)。 实现这个目标的一种方法是建立一个模型,将两条推文编码成两个向量,连接向量,然后 添加逻辑回归层;这将输出两条推文来自同一作者的概率。模型将接收一对对正负表示的推特 数据。0 码力 | 257 页 | 1.19 MB | 1 年前3
共 57 条
- 1
- 2
- 3
- 4
- 5
- 6













