动手学深度学习 v2.0如果我们使用macOS,假设Python版本是3.9(我们的测试版本),将下载名称包含字符串“MacOSX”的bash脚 本,并执行以下操作: # 以Intel处理器为例,文件名可能会更改 sh Miniconda3-py39_4.12.0-MacOSX-x86_64.sh -b 如果我们使用Linux,假设Python版本是3.9(我们的测试版本),将下载名称包含字符串“Linux”的bash脚 本,并执行以下操作: 着用一台计算机和一个代码编辑器编写代码,如 图1.1.1中所示。问题看似很难解决:麦克风每秒钟将收集大 约44000个样本,每个样本都是声波振幅的测量值。而该测量值与唤醒词难以直接关联。那又该如何编写程 序,令其输入麦克风采集到的原始音频片段,输出{是, 否}(表示该片段是否包含唤醒词)的可靠预测呢?我 们对编写这个程序毫无头绪,这就是需要机器学习的原因。 图1.1.1: 识别唤醒词 通常,即使我们不知道怎样明确地告诉计算 强化学习框架的通用性十分强大。例如,我们可以将任何监督学习问题转化为强化学习问题。假设我们有一 个分类问题,可以创建一个强化学习智能体,每个分类对应一个“动作”。然后,我们可以创建一个环境,该 环境给予智能体的奖励。这个奖励与原始监督学习问题的损失函数是一致的。 当然,强化学习还可以解决许多监督学习无法解决的问题。例如,在监督学习中,我们总是希望输入与正确 的标签相关联。但在强化学习中,我们并不假设环境告诉智能体每个观测的最优动作。一般来说,智能体只0 码力 | 797 页 | 29.45 MB | 1 年前3
Keras: 基于 Python 的深度学习库compile 方法完成的。它接收三个参数: • 优化器 optimizer。它可以是现有优化器的字符串标识符,如 rmsprop 或 adagrad,也可以 是 Optimizer 类的实例。详见:optimizers。 • 损失函数 loss,模型试图最小化的目标函数。它可以是现有损失函数的字符串标识符,如 categorical_crossentropy 或 mse,也可以是一个目标函数。详见:losses。 mse,也可以是一个目标函数。详见:losses。 • 评估标准 metrics。对于任何分类问题,你都希望将其设置为 metrics = ['accuracy']。 评估标准可以是现有的标准的字符串标识符,也可以是自定义的评估标准函数。 # 多分类问题 model.compile(optimizer='rmsprop', loss='categorical_crossentropy', metrics=['accuracy']) 中,例如微调或迁移学习,则 可以按层的名字来加载权重: model.load_weights('my_model_weights.h5', by_name=True) 例如: """ 假设原始模型如下所示: model = Sequential() model.add(Dense(2, input_dim=3, name='dense_1')) model.add(Dense(3,0 码力 | 257 页 | 1.19 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版20211210、图 1.11 列举了一些数据集的样本数和数据集大小随时间的变化趋势。 尽管深度学习对数据集需求较高,收集数据,尤其是收集带标签的数据,往往是代价 昂贵的。数据集的形成通常需要手动采集、爬取原始数据,并清洗掉无效样本,再通过人 类智能去标注数据样本,因此不可避免地引入主观偏差和随机误差。研究数据量需求较少 的算法模型是非常有用的一个方向。 预览版202112 第 1 章 人工智能绪论 机器学习需要从数据中间学习,因此首先需要采集大量的真实样本数据。以手写的数 字图片识别为例,如图 3.1 所示,需要收集较多的由真人书写的 0~9 的数字图片,为了便 于存储和计算,通常把收集的原始图片缩放到某个固定的大小(Size 或 Shape),比如 224 个 像素的行和 224 个像素的列(224 × 224),或者 96 个像素的行和 96 个像素的列(96 × 96), 图片样本将作为输入数据 张量的基础操作方法十分重要。只有掌握了这些操作方法,才能随 心所欲地实现各种复杂新奇的网络模型,也才能深刻理解各种模型算法的本质。 4.1 数据类型 首先来介绍 PyTorch 中的基本数据类型,包含数值类型和布尔类型。虽然字符串类型 在 Python 语言中使用频繁,但是机器学习主要以数值运算为主,因此 PyTorch 并没有对字 符串类型单独提供支持。 4.1.1 数值类型 数值类型的张量是 PyTorch 的0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-11机器学习-降维Reduction)是将训练数据中的样本(实例)从高 维空间转换到低维空间,该过程与信息论中有损压缩概念密切相 关。同时要明白的,不存在完全无损的降维。 有很多种算法可以完成对原始数据的降维,在这些方法中,降维 是通过对原始数据的线性变换实现的。 7 1.降维概述 • 高维数据增加了运算的难度 • 高维使得学习算法的泛化能力变弱(例如,在最近邻分类器中, 样本复杂度随着维度成指数增长),维度越高,算法的搜索难度 10 1.降维概述 数据可视化 t-distributed Stochastic Neighbor Embedding(t-SNE) t-SNE(TSNE)将数据点之间的相似度转换为概率。原始空间中的相似度由 高斯联合概率表示,嵌入空间的相似度由“学生t分布”表示。 虽然Isomap,LLE和variants等数据降维和可视化方法,更适合展开单个连 续的低维的manifold。但如 来表示。 · · 29 2.SVD(奇异值分解) SVD案例 原始图像 处理后的图像 原始维度? = 575 × 1081 × 3 = 1864725 设? = 150,则经过SVD分解后的矩阵及维度: ??×? = 575 × 150,σ ?×? = 150 × 150,??×? T = 1081 × 150 则原始图像经过压缩后的维度:3 × (575 × 150 + 150 ×0 码力 | 51 页 | 3.14 MB | 1 年前3
机器学习课程-温州大学-特征工程特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读 定义 目的 作用 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用 构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择 数据决定一切 数据大小 准 确 率 1. 相关概念 6 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 项目 特征提取 特征选择 共同点 都从原始特征中找出最有效的特征 都能帮助减少特征的维度、数据冗余 区别 ➢ 强调通过特征转换的方式得 到一组具有明显物理或统计 意义的特征 ➢ 有时能发现更有意义的特征 属性 ➢ 从特征集合中挑选一组具 中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 特征构建:是指从原始数 据中人工的找出一些具有 物理意义的特征。 方法:经验、属性分割和 结合 操作:使用混合属性或者 组合属性来创建新的特征 ,或是分解或切分原有的 特征来创建新的特征 2. 特征构建 在原始数据集中的特征 的形式不适合直接进行 建模时,使用一个或多 个原特征构造新的特征 可能会比直接使用原有0 码力 | 38 页 | 1.28 MB | 1 年前3
机器学习课程-温州大学-时间序列总结normalize=True, tz='Asia/Hong_Kong') 25 时间序列的频率、偏移量 默认生成的时间序列数据是按天计算的,即 频率为“D”。 • “D”是一个基础频率,通过用一个字符串 的别名表示,比如“D”是“day”的别名 。 • 频率是由一个基础频率和一个乘数组成的 ,比如,“5D”表示每5天。 26 时间序列的频率、偏移量 通过一张表来列举时 间序列的基础频率。 重采样 05 数据统计—滑动窗口 06 时序模型—ARIMA 33 创建时期对象 pd.Period(2018) 创建Period类对象的方式比较简单,只需要在构造 方法中以字符串或整数的形式传入一个日期即可。 Period类表示一个标准的时间段或时期,比 如某年、某月、某日、某小时等。 pd.Period('2017/6') 34 创建时期对象 Period对象能够参与数学运算。如果Period Period对象1 Period对象2 ... Period对象N 38 创建时期对象 除了使用上述方式创建PeriodIndex外,还 可以直接在PeriodIndex的构造方法中传入 一组日期字符串。 str_list = ['2010', '2011', '2012'] pd.PeriodIndex(str_list, freq='A-DEC') 39 创建时期对象 DatetimeIndex是用来指代一系列时间点0 码力 | 67 页 | 1.30 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言安装过程照着提示一步步操作就可以了。 注意:安装路径尽量不使用带有 中文或空格 的目录,这样在之后的使用过程 中减少一些莫名的错误。 Python 的环境的安装 54 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 55 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器,列表用[ ]来表示,其中元素的类型可不相同。 ⚫元组(tuple) 里面的元素的值不能修改,只能读取。元组的符号是( ) ⚫集合(set) 集合主要有两个功能,一个功能是进行集合操作,另一个功能是消除重复元素。 集合的格式 是:set( ),其中()内可以是列表、字典或字符串,因为字符串是以列表的形式存储的 ⚫字典(dict) 字典dict也叫做关联数组,用大括号{ }括起来,在其他语言中也称为map,使用键-值( key-value)存储,具有极快的查找速度,其中key不能重复。0 码力 | 78 页 | 3.69 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言安装过程照着提示一步步操作就可以了。 注意:安装路径尽量不使用带有 中文或空格 的目录,这样在之后的使用过程 中减少一些莫名的错误。 Python 的环境的安装 55 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 56 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器,列表用[ ]来表示,其中元素的类型可不相同。 ⚫元组(tuple) 里面的元素的值不能修改,只能读取。元组的符号是( ) ⚫集合(set) 集合主要有两个功能,一个功能是进行集合操作,另一个功能是消除重复元素。 集合的格式 是:set( ),其中()内可以是列表、字典或字符串,因为字符串是以列表的形式存储的 ⚫字典(dict) 字典dict也叫做关联数组,用大括号{ }括起来,在其他语言中也称为map,使用键-值( key-value)存储,具有极快的查找速度,其中key不能重复。0 码力 | 80 页 | 5.38 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra本文是斯坦福大学CS 229机器学习课程的基础材料,原始文件下载 原文作者:Zico Kolter,修改:Chuong Do, Tengyu Ma 翻译:黄海广 备注:请关注github的更新,线性代数和概率论已经更新完毕。 CS229 机器学习课程复习材料-线性代数 CS229 机器学习课程复习材料-线性代数 线性代数复习和参考 1. 基础概念和符号 1.1 基本符号 2 的基。设 为矩阵向量积。现在让我们计算关于 的基 : 然后,再利用 和方程 ,我们得到: 我们可以看到,原始空间中的左乘矩阵 等于左乘对角矩阵 相对于新的基,即仅将每个坐标缩放相应 的特征值。 在新的基上,矩阵多次相乘也变得简单多了。例如,假设 。根据 的元素导出 的分析形式,使用原始的基可能是一场噩梦,但使用新的基就容易多了: “对角化”二次型。作为直接的推论,二次型 也可以在新的基上简化。0 码力 | 19 页 | 1.66 MB | 1 年前3
机器学习课程-温州大学-机器学习项目流程特征工程 04 数据建模 19 3.特征工程 特征工程和特征选择 •特征工程: 获取原始数据并提取或创建新特征的过程。这可能意味着需要对 变量进行变换,例如自然对数和平方根,或者对分类变量进行one-hot编码 ,以便它们可以在模型中使用。 一般来说,我认为特征工程是从原始数据 创建附加特征。 •特征选择: 选择数据中最相关的特征的过程。在特征选择中,我们删除特征 以帮0 码力 | 26 页 | 1.53 MB | 1 年前3
共 27 条
- 1
- 2
- 3













