 动手学深度学习 v2.0随机变量X的标准差 • Cov(X, Y ): 随机变量X和Y 的协方差 • ρ(X, Y ): 随机变量X和Y 的相关性 • H(X): 随机变量X的熵 • DKL(P∥Q): P和Q的KL‐散度 复杂度 • O:大O标记 Discussions11 11 https://discuss.d2l.ai/t/2089 目录 15 16 目录 1 引言 时至今日,人们常用的计算机程序几乎 当处理图像数据时,每一张单独的照片即为一个样本,它的特征由每个像素数值的有序列表表示。比如, 200 × 200彩色照片由200 × 200 × 3 = 120000个数值组成,其中的“3”对应于每个空间位置的红、绿、蓝通 道的强度。再比如,对于一组医疗数据,给定一组标准的特征(如年龄、生命体征和诊断),此数据可以用来 尝试预测患者是否会存活。 当每个样本的特征类别数量都是相同的时候,其特征向 线 性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。再比如,裁缝们已经开发 出了一小部分参数,这些参数相当准确地描述了人体的形状,以适应衣服的需要。另一个例子:在欧几 里得空间中是否存在一种(任意结构的)对象的表示,使其符号属性能够很好地匹配?这可以用来描述 实体及其关系,例如“罗马”− “意大利”+ “法国”= “巴黎”。 • 因果关系(causality)和概率图模型(probabilistic0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0随机变量X的标准差 • Cov(X, Y ): 随机变量X和Y 的协方差 • ρ(X, Y ): 随机变量X和Y 的相关性 • H(X): 随机变量X的熵 • DKL(P∥Q): P和Q的KL‐散度 复杂度 • O:大O标记 Discussions11 11 https://discuss.d2l.ai/t/2089 目录 15 16 目录 1 引言 时至今日,人们常用的计算机程序几乎 当处理图像数据时,每一张单独的照片即为一个样本,它的特征由每个像素数值的有序列表表示。比如, 200 × 200彩色照片由200 × 200 × 3 = 120000个数值组成,其中的“3”对应于每个空间位置的红、绿、蓝通 道的强度。再比如,对于一组医疗数据,给定一组标准的特征(如年龄、生命体征和诊断),此数据可以用来 尝试预测患者是否会存活。 当每个样本的特征类别数量都是相同的时候,其特征向 线 性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。再比如,裁缝们已经开发 出了一小部分参数,这些参数相当准确地描述了人体的形状,以适应衣服的需要。另一个例子:在欧几 里得空间中是否存在一种(任意结构的)对象的表示,使其符号属性能够很好地匹配?这可以用来描述 实体及其关系,例如“罗马”− “意大利”+ “法国”= “巴黎”。 • 因果关系(causality)和概率图模型(probabilistic0 码力 | 797 页 | 29.45 MB | 1 年前3
 机器学习课程-温州大学-01机器学习-引言17 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality Reduction ) ✓ 如何将将原高维空间中的数据点映射到低维度的 空间中? 2. 机器学习的类型-无监督学习 18 ✓ 强化学习(Reinforcement Learning) ✓ 用于描述和解决智能体(agent)在与环境的交 互过程中通过学习策略以达成回报最大化或实现 “过拟合”的问题。 为此,我们再原有基础上加上用于控制模型复杂度的正则项(Regularizer),得到结构最小化准 则。具体定义是: 其中,?(?)代表对模型复杂度的惩罚。模型越复杂,?(?)越大,模型越简单,?(?)就越小。?是 一个正的常数,也叫正则化系数,用于平衡经验风险和模型复杂度。 一般来说,结构风险小的模型需要经验风险和模型复杂度同时小,因此对训练数据和测试数据 都能有较好的拟合。 ndimage N维图像 scipy.odr 正交距离回归 scipy.optimize 优化算法 scipy.signal 信号处理 scipy.sparse 稀疏矩阵 scipy.spatial 空间数据结构和算法 scipy.special 特殊数学函数 scipy.stats 统计函数 69 Python模块-Matplotlib ⚫Matplotlib Matplotlib 是一个0 码力 | 78 页 | 3.69 MB | 1 年前3 机器学习课程-温州大学-01机器学习-引言17 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality Reduction ) ✓ 如何将将原高维空间中的数据点映射到低维度的 空间中? 2. 机器学习的类型-无监督学习 18 ✓ 强化学习(Reinforcement Learning) ✓ 用于描述和解决智能体(agent)在与环境的交 互过程中通过学习策略以达成回报最大化或实现 “过拟合”的问题。 为此,我们再原有基础上加上用于控制模型复杂度的正则项(Regularizer),得到结构最小化准 则。具体定义是: 其中,?(?)代表对模型复杂度的惩罚。模型越复杂,?(?)越大,模型越简单,?(?)就越小。?是 一个正的常数,也叫正则化系数,用于平衡经验风险和模型复杂度。 一般来说,结构风险小的模型需要经验风险和模型复杂度同时小,因此对训练数据和测试数据 都能有较好的拟合。 ndimage N维图像 scipy.odr 正交距离回归 scipy.optimize 优化算法 scipy.signal 信号处理 scipy.sparse 稀疏矩阵 scipy.spatial 空间数据结构和算法 scipy.special 特殊数学函数 scipy.stats 统计函数 69 Python模块-Matplotlib ⚫Matplotlib Matplotlib 是一个0 码力 | 78 页 | 3.69 MB | 1 年前3
 搜狗深度学习技术在广告推荐领域的应用特征组合 MxNet TensorFlow Wide&Deep 去噪 特征自动组合 (FM) 特征设计 离散特征 离散特征 容易设计;刻画细致;特 征稀疏; 特征量巨大;模型复杂度 受限 连续特征 连续特征 需要仔细设计;定长;特 征稠密 特征量相对较小,可以 使用多种模型训练 模型类别 模型类别 线性  简单、处理特征 量大、稳定性好  需借助交叉特征 • 可调参数有限,改进空间相对较小 CTR bagging • 任一模型的输出作为另一模型的特征输入 • 实现方法复杂,模型之间有依赖关系 • 实验方案较多,改进空间较大 模型融合 模型融合的工程实现 • 可支持多个不同模型的加载和计算 • 可支持模型之间的交叉和CTR的bagging • 可通过配置项随时调整模型融合方案 • 避免不必要的重复操作,减少时间复杂度 目标 • 模型本身也看做一个抽象特征 使用成本低  构 建 多 机 多 卡 GPU集群,优化 训练效率,提高 加速比 现状和计划 现状  已经实现LR+DNN融合模型的上线,收益较好  受限于线上计算资源,模型复杂度有限  线下训练流程有依赖,繁琐易出错 计划  线上服务拆分,独立出深度学习计算模块,采用低功耗GPU加速  支撑更宽、更深、更复杂的网络结构  采用Wide & Deep,线下训练流程解耦0 码力 | 22 页 | 1.60 MB | 1 年前3 搜狗深度学习技术在广告推荐领域的应用特征组合 MxNet TensorFlow Wide&Deep 去噪 特征自动组合 (FM) 特征设计 离散特征 离散特征 容易设计;刻画细致;特 征稀疏; 特征量巨大;模型复杂度 受限 连续特征 连续特征 需要仔细设计;定长;特 征稠密 特征量相对较小,可以 使用多种模型训练 模型类别 模型类别 线性  简单、处理特征 量大、稳定性好  需借助交叉特征 • 可调参数有限,改进空间相对较小 CTR bagging • 任一模型的输出作为另一模型的特征输入 • 实现方法复杂,模型之间有依赖关系 • 实验方案较多,改进空间较大 模型融合 模型融合的工程实现 • 可支持多个不同模型的加载和计算 • 可支持模型之间的交叉和CTR的bagging • 可通过配置项随时调整模型融合方案 • 避免不必要的重复操作,减少时间复杂度 目标 • 模型本身也看做一个抽象特征 使用成本低  构 建 多 机 多 卡 GPU集群,优化 训练效率,提高 加速比 现状和计划 现状  已经实现LR+DNN融合模型的上线,收益较好  受限于线上计算资源,模型复杂度有限  线下训练流程有依赖,繁琐易出错 计划  线上服务拆分,独立出深度学习计算模块,采用低功耗GPU加速  支撑更宽、更深、更复杂的网络结构  采用Wide & Deep,线下训练流程解耦0 码力 | 22 页 | 1.60 MB | 1 年前3
 机器学习课程-温州大学-特征工程Analysis,主成分分析) PCA 是降维最经典的方法,它旨在是找到数据中的主成分,并利 用这些主成分来表征原始数据,从而达到降维的目的。 PCA 的思想是通过坐标轴转换,寻找数据分布的最优子空间。 对 样本 数据进 行中心化处理 求样本协方差 矩阵 对协方差矩阵进 行特征值分解, 将特征值从大到 小排列 取特征值前 ? 个 最大的对应的, 这样将原来? 维 的样本降低到? 维 步骤 低计算复杂度 目的:确保不丢失重要的特征 4. 特征选择 26 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 模型性能 • 保留尽可能多的特征,模型 的性能会提升 • 但同时模型就变复杂,计算 复杂度也同样提升 计算复杂度 • 剔除尽可能多的特征,模型的 性能会有所下降 • 但模型就变简单,也就降低计 算复杂度 VS0 码力 | 38 页 | 1.28 MB | 1 年前3 机器学习课程-温州大学-特征工程Analysis,主成分分析) PCA 是降维最经典的方法,它旨在是找到数据中的主成分,并利 用这些主成分来表征原始数据,从而达到降维的目的。 PCA 的思想是通过坐标轴转换,寻找数据分布的最优子空间。 对 样本 数据进 行中心化处理 求样本协方差 矩阵 对协方差矩阵进 行特征值分解, 将特征值从大到 小排列 取特征值前 ? 个 最大的对应的, 这样将原来? 维 的样本降低到? 维 步骤 低计算复杂度 目的:确保不丢失重要的特征 4. 特征选择 26 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 模型性能 • 保留尽可能多的特征,模型 的性能会提升 • 但同时模型就变复杂,计算 复杂度也同样提升 计算复杂度 • 剔除尽可能多的特征,模型的 性能会有所下降 • 但模型就变简单,也就降低计 算复杂度 VS0 码力 | 38 页 | 1.28 MB | 1 年前3
 机器学习课程-温州大学-11机器学习-降维Reduction)是将训练数据中的样本(实例)从高 维空间转换到低维空间,该过程与信息论中有损压缩概念密切相 关。同时要明白的,不存在完全无损的降维。 有很多种算法可以完成对原始数据的降维,在这些方法中,降维 是通过对原始数据的线性变换实现的。 7 1.降维概述 • 高维数据增加了运算的难度 • 高维使得学习算法的泛化能力变弱(例如,在最近邻分类器中, 样本复杂度随着维度成指数增长),维度越高,算法的搜索难度 数据可视化 t-distributed Stochastic Neighbor Embedding(t-SNE) t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的相似度由 高斯联合概率表示,嵌入空间的相似度由“学生t分布”表示。 虽然Isomap,LLE和variants等数据降维和可视化方法,更适合展开单个连 续的低维的manifold。但如果要准确的可视化样本间的相似度关系,如对于 下图所示的S曲线(不同颜色的图像表示不同类别的数据),t-SNE表现更好 。因为t-SNE主要是关注数据的局部结构。 11 1.降维概述 降维的优缺点 降维的优点: • 通过减少特征的维数,数据集存储所需的空间也相应减少,减少了特征维数所需的计算 训练时间; • 数据集特征的降维有助于快速可视化数据; • 通过处理多重共线性消除冗余特征。 降维的缺点: • 由于降维可能会丢失一些数据; • 在0 码力 | 51 页 | 3.14 MB | 1 年前3 机器学习课程-温州大学-11机器学习-降维Reduction)是将训练数据中的样本(实例)从高 维空间转换到低维空间,该过程与信息论中有损压缩概念密切相 关。同时要明白的,不存在完全无损的降维。 有很多种算法可以完成对原始数据的降维,在这些方法中,降维 是通过对原始数据的线性变换实现的。 7 1.降维概述 • 高维数据增加了运算的难度 • 高维使得学习算法的泛化能力变弱(例如,在最近邻分类器中, 样本复杂度随着维度成指数增长),维度越高,算法的搜索难度 数据可视化 t-distributed Stochastic Neighbor Embedding(t-SNE) t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的相似度由 高斯联合概率表示,嵌入空间的相似度由“学生t分布”表示。 虽然Isomap,LLE和variants等数据降维和可视化方法,更适合展开单个连 续的低维的manifold。但如果要准确的可视化样本间的相似度关系,如对于 下图所示的S曲线(不同颜色的图像表示不同类别的数据),t-SNE表现更好 。因为t-SNE主要是关注数据的局部结构。 11 1.降维概述 降维的优缺点 降维的优点: • 通过减少特征的维数,数据集存储所需的空间也相应减少,减少了特征维数所需的计算 训练时间; • 数据集特征的降维有助于快速可视化数据; • 通过处理多重共线性消除冗余特征。 降维的缺点: • 由于降维可能会丢失一些数据; • 在0 码力 | 51 页 | 3.14 MB | 1 年前3
 《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别法真正流行起来,并带来了神经网络在80年代的辉煌。 计算梯度 MNIST Softmax 网络 将表示手写体数字的形如 [784] 的一维向量作为输入;中间定义2层 512 个神经元的隐藏层,具 备一定模型复杂度,足以识别手写体数字;最后定义1层10个神经元的全联接层,用于输出10 个不同类别的“概率”。 实战 MNIST Softmax 网络 MNIST Softmax 网络层 “Hello TensorFlow” conv) 卷积层是使用一系列卷积核与多通道输入数据做卷积的线性计算层。卷积层的提出是为了利用 输入数据(如图像)中特征的局域性和位置无关性来降低整个模型的参数量。卷积运算过程与 图像处理算法中常用的空间滤波是类似的。因此,卷积常常被通俗地理解为一种“滤波”过程, 卷积核与输入数据作用之后得到了“滤波”后的图像,从而提取出了图像的特征。 池化层(Pooling) 池化层是用于缩小数据规模的一种0 码力 | 38 页 | 1.82 MB | 1 年前3 《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别法真正流行起来,并带来了神经网络在80年代的辉煌。 计算梯度 MNIST Softmax 网络 将表示手写体数字的形如 [784] 的一维向量作为输入;中间定义2层 512 个神经元的隐藏层,具 备一定模型复杂度,足以识别手写体数字;最后定义1层10个神经元的全联接层,用于输出10 个不同类别的“概率”。 实战 MNIST Softmax 网络 MNIST Softmax 网络层 “Hello TensorFlow” conv) 卷积层是使用一系列卷积核与多通道输入数据做卷积的线性计算层。卷积层的提出是为了利用 输入数据(如图像)中特征的局域性和位置无关性来降低整个模型的参数量。卷积运算过程与 图像处理算法中常用的空间滤波是类似的。因此,卷积常常被通俗地理解为一种“滤波”过程, 卷积核与输入数据作用之后得到了“滤波”后的图像,从而提取出了图像的特征。 池化层(Pooling) 池化层是用于缩小数据规模的一种0 码力 | 38 页 | 1.82 MB | 1 年前3
 超大规模深度学习在美团的应用-余建平 计算耗时短:线性模型LR、树模型  模型表达能力不足,效果一般 • 复杂模型  DNN模型解决耗时是关键,利用预计算解决耗时问题  效果保障:保证用户的个性化信息,降低候选集计算复杂度 粗排模型 • 精排阶段的特点  候选集较少,通常在百级别  线上耗时相对宽松,几十毫秒(视效果而定) • 精排模型的特点  结构复杂,怎么有效果怎么来  特征多样:历史行为、统计值、id类特征、高维交叉 小规模DNN:MLP、小规模的Wide & Deep  大规模离散DNN:大规模的Wide & Deep、DeepFM、DCN 精排模型 1. Random Forest 2. XGBoost 1. MLP 2. 少量特征空间 的Wide & Deep 1. 大规模离散特征 的Wide & Deep 2. DeepFM 3. Deep Cross 树模型 小规模DNN 大规模离散DNN • 超大规模深度学习0 码力 | 41 页 | 5.96 MB | 1 年前3 超大规模深度学习在美团的应用-余建平 计算耗时短:线性模型LR、树模型  模型表达能力不足,效果一般 • 复杂模型  DNN模型解决耗时是关键,利用预计算解决耗时问题  效果保障:保证用户的个性化信息,降低候选集计算复杂度 粗排模型 • 精排阶段的特点  候选集较少,通常在百级别  线上耗时相对宽松,几十毫秒(视效果而定) • 精排模型的特点  结构复杂,怎么有效果怎么来  特征多样:历史行为、统计值、id类特征、高维交叉 小规模DNN:MLP、小规模的Wide & Deep  大规模离散DNN:大规模的Wide & Deep、DeepFM、DCN 精排模型 1. Random Forest 2. XGBoost 1. MLP 2. 少量特征空间 的Wide & Deep 1. 大规模离散特征 的Wide & Deep 2. DeepFM 3. Deep Cross 树模型 小规模DNN 大规模离散DNN • 超大规模深度学习0 码力 | 41 页 | 5.96 MB | 1 年前3
 机器学习课程-温州大学-01深度学习-引言共振的深度、 吸收度或反射 度 预处理 对图像做一 种或一些预 处理,使图 像满足后继 处理的要 求 ,如:二次 取样保证图 像坐标的正 确,平滑、 去噪等 特征提取 从图像中提取 各种复杂度的 特征,如:线 ,边缘提取和 脊侦测,边角 检测、斑点检 测等局部化的 特征点检测 检测/分割 对图像进行分割 ,提取有价值的 内容,用于后继 处理, 如:筛 选特征点,分割 含有特定目标的 ndimage N维图像 scipy.odr 正交距离回归 scipy.optimize 优化算法 scipy.signal 信号处理 scipy.sparse 稀疏矩阵 scipy.spatial 空间数据结构和算法 scipy.special 特殊数学函数 scipy.stats 统计函数 70 Python模块-Matplotlib ⚫Matplotlib Matplotlib 是一个0 码力 | 80 页 | 5.38 MB | 1 年前3 机器学习课程-温州大学-01深度学习-引言共振的深度、 吸收度或反射 度 预处理 对图像做一 种或一些预 处理,使图 像满足后继 处理的要 求 ,如:二次 取样保证图 像坐标的正 确,平滑、 去噪等 特征提取 从图像中提取 各种复杂度的 特征,如:线 ,边缘提取和 脊侦测,边角 检测、斑点检 测等局部化的 特征点检测 检测/分割 对图像进行分割 ,提取有价值的 内容,用于后继 处理, 如:筛 选特征点,分割 含有特定目标的 ndimage N维图像 scipy.odr 正交距离回归 scipy.optimize 优化算法 scipy.signal 信号处理 scipy.sparse 稀疏矩阵 scipy.spatial 空间数据结构和算法 scipy.special 特殊数学函数 scipy.stats 统计函数 70 Python模块-Matplotlib ⚫Matplotlib Matplotlib 是一个0 码力 | 80 页 | 5.38 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版202112Solution)。为什么叫作优化?这 是因为计算机的计算速度非常快,可以借助强大的计算能力去多次“搜索”和“试错”,从 而一步步降低误差ℒ。最简单的优化方法就是暴力搜索或随机试验,比如要找出最合适的 ?∗和?∗,就可以从(部分)实数空间中随机采样?和?,并计算出?和?对应模型的误差值ℒ, 然后从测试过的{ℒ}集合中挑出最好的ℒ∗,它所对应的?和?就可以近似作为最优?∗和?∗。 这种算法固然简单直接,但是面对大规模、高维度数据的优化问题时计算效率极低, One- hot 编码为[0,0,1, … ,0],图片 9 的 One-hot 编码为[0,0,0, … ,1]。One-hot 编码是非常稀疏 (Sparse)的,相对于数字编码来说,占用较多的存储空间,因此一般在存储时还是采用数字 编码方式,仅在计算时,根据需要把数字编码转换成 One-hot 编码,通过 one_hot 函数即可 实现。 In [1]: def one_hot(label 层,也叫作隐藏层,最后一层也叫作输出层。这种由大量神经元模型连接形成的网络结构 称为神经网络(Neural Network)。从这里可以看到,神经网络并不难理解,神经网络每层的 节点数和神经网络的层数或结构等决定了神经网络的复杂度。 预览版202112 第 3 章 分类问题 10 输入层:? 隐藏层:? 隐藏层: ? 输出层: 图 3.10 3 层神经网络结构 经过简单的改进,网络模型已经升级为0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版202112Solution)。为什么叫作优化?这 是因为计算机的计算速度非常快,可以借助强大的计算能力去多次“搜索”和“试错”,从 而一步步降低误差ℒ。最简单的优化方法就是暴力搜索或随机试验,比如要找出最合适的 ?∗和?∗,就可以从(部分)实数空间中随机采样?和?,并计算出?和?对应模型的误差值ℒ, 然后从测试过的{ℒ}集合中挑出最好的ℒ∗,它所对应的?和?就可以近似作为最优?∗和?∗。 这种算法固然简单直接,但是面对大规模、高维度数据的优化问题时计算效率极低, One- hot 编码为[0,0,1, … ,0],图片 9 的 One-hot 编码为[0,0,0, … ,1]。One-hot 编码是非常稀疏 (Sparse)的,相对于数字编码来说,占用较多的存储空间,因此一般在存储时还是采用数字 编码方式,仅在计算时,根据需要把数字编码转换成 One-hot 编码,通过 one_hot 函数即可 实现。 In [1]: def one_hot(label 层,也叫作隐藏层,最后一层也叫作输出层。这种由大量神经元模型连接形成的网络结构 称为神经网络(Neural Network)。从这里可以看到,神经网络并不难理解,神经网络每层的 节点数和神经网络的层数或结构等决定了神经网络的复杂度。 预览版202112 第 3 章 分类问题 10 输入层:? 隐藏层:? 隐藏层: ? 输出层: 图 3.10 3 层神经网络结构 经过简单的改进,网络模型已经升级为0 码力 | 439 页 | 29.91 MB | 1 年前3
 Keras: 基于 Python 的深度学习库的相同的栈式 LSTM 模型 有状态的循环神经网络模型中,在一个 batch 的样本处理完成后,其内部状态(记忆)会被记录 并作为下一个 batch 的样本的初始状态。这允许处理更长的序列,同时保持计算复杂度的可控 性。 你可以在 FAQ 中查找更多关于 stateful RNNs 的信息。 from keras.models import Sequential from keras.layers 16) 的数组作为输入, # 其输出数组的尺寸为 (*, 32) # 在第一层之后,你就不再需要指定输入的尺寸了: model.add(Dense(32)) 参数 • units: 正整数,输出空间维度。 • activation: 激活函数 (详见 activations)。若不指定,则不使用激活函数 (即,“线性” 激活: a(x) = x)。 • use_bias: 布尔值,该层是否使用偏置向量。 activity_regularizer=None, kernel_constraint=None, bias_constraint=None) 1D 卷积层 (例如时序卷积)。 该层创建了一个卷积核,该卷积核以单个空间(或时间)维上的层输入进行卷积,以生成 输出张量。如果 use_bias 为 True,则会创建一个偏置向量并将其添加到输出中。最后,如果 activation 不是 None,它也会应用于输出。0 码力 | 257 页 | 1.19 MB | 1 年前3 Keras: 基于 Python 的深度学习库的相同的栈式 LSTM 模型 有状态的循环神经网络模型中,在一个 batch 的样本处理完成后,其内部状态(记忆)会被记录 并作为下一个 batch 的样本的初始状态。这允许处理更长的序列,同时保持计算复杂度的可控 性。 你可以在 FAQ 中查找更多关于 stateful RNNs 的信息。 from keras.models import Sequential from keras.layers 16) 的数组作为输入, # 其输出数组的尺寸为 (*, 32) # 在第一层之后,你就不再需要指定输入的尺寸了: model.add(Dense(32)) 参数 • units: 正整数,输出空间维度。 • activation: 激活函数 (详见 activations)。若不指定,则不使用激活函数 (即,“线性” 激活: a(x) = x)。 • use_bias: 布尔值,该层是否使用偏置向量。 activity_regularizer=None, kernel_constraint=None, bias_constraint=None) 1D 卷积层 (例如时序卷积)。 该层创建了一个卷积核,该卷积核以单个空间(或时间)维上的层输入进行卷积,以生成 输出张量。如果 use_bias 为 True,则会创建一个偏置向量并将其添加到输出中。最后,如果 activation 不是 None,它也会应用于输出。0 码力 | 257 页 | 1.19 MB | 1 年前3
共 41 条
- 1
- 2
- 3
- 4
- 5













