 机器学习课程-温州大学-02深度学习-神经网络的编程基础1 2023年03月 深度学习-神经网络的编程基础 黄海广 副教授 2 本章目录 01 二分类与逻辑回归 02 梯度下降 03 计算图 04 向量化 3 1.二分类与逻辑回归 02 梯度下降 01 二分类与逻辑回归 03 计算图 04 向量化 4 符号定义 ?:表示一个??维数据,为输入数 据,维度为(??, 1); ?? ⋅ ?? ?? = (− ? ? + (1−?) (1−?)) ⋅ ?(1 − ?) = ? − ? ?=??? + ? 9 2.梯度下降 02 梯度下降 01 二分类与逻辑回归 03 计算图 04 向量化 10 梯度下降 ? 学习率 步长 11 梯度下降的三种形式 批量梯度下降(Batch Gradient Descent,BGD) 1 ?  ?=? ?+?−1 ℎ ?(?) − ?(?) ?? (?) (同步更新?? ,(j=0,1,...,n )) 17 3.计算图 02 梯度下降 01 二分类与逻辑回归 03 计算图 04 向量化 18 3.计算图 ? = ?? ? = 3? ? = ? + ? ? ?, ?, ? = 3(? + ??), ? = 5, ? =0 码力 | 27 页 | 1.54 MB | 1 年前3 机器学习课程-温州大学-02深度学习-神经网络的编程基础1 2023年03月 深度学习-神经网络的编程基础 黄海广 副教授 2 本章目录 01 二分类与逻辑回归 02 梯度下降 03 计算图 04 向量化 3 1.二分类与逻辑回归 02 梯度下降 01 二分类与逻辑回归 03 计算图 04 向量化 4 符号定义 ?:表示一个??维数据,为输入数 据,维度为(??, 1); ?? ⋅ ?? ?? = (− ? ? + (1−?) (1−?)) ⋅ ?(1 − ?) = ? − ? ?=??? + ? 9 2.梯度下降 02 梯度下降 01 二分类与逻辑回归 03 计算图 04 向量化 10 梯度下降 ? 学习率 步长 11 梯度下降的三种形式 批量梯度下降(Batch Gradient Descent,BGD) 1 ?  ?=? ?+?−1 ℎ ?(?) − ?(?) ?? (?) (同步更新?? ,(j=0,1,...,n )) 17 3.计算图 02 梯度下降 01 二分类与逻辑回归 03 计算图 04 向量化 18 3.计算图 ? = ?? ? = 3? ? = ? + ? ? ?, ?, ? = 3(? + ??), ? = 5, ? =0 码力 | 27 页 | 1.54 MB | 1 年前3
 机器学习课程-温州大学-03机器学习-逻辑回归5 二分类 分类问题 1 2 我们先从用蓝色圆形数据定义为类 型1,其余数据为类型2; 只需要分类1次 步骤:①->② ① ② 二分类 6 多分类 分类问题 1 rest 1 2 rest One-vs-All (One-vs-Rest) 我们先定义其中一类为类型1(正 类),其余数据为负类(rest); 接下来去掉类型1数据,剩余部分 再次进行二分类,分成类型2和负 + ?, 则?可以融入到?0,即:?=?T? 9 2.Sigmoid函数 线性回归的函数 ℎ ? = ? = ?T?,范围是(−∞, +∞)。 而分类预测结果需要得到[0,1]的概率值。 在二分类模型中,事件的几率odds:事件发生与事件不发生的概率之比为 ? 1−?, 称为事件的发生比(the odds of experiencing an event) 其中?为随机事件发生的概率, (?)) ? ? 11 3.逻辑回归求解 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 12 3.逻辑回归求解 假设一个二分类模型: ?(? = 1|?; ?) = ℎ(?) ?(? = 0|?; ?) = 1 − ℎ(?) 则: ?(?|?; ?) = (ℎ(?))?(1 − ℎ(?))1−? 逻辑回归模型的假设是:0 码力 | 23 页 | 1.20 MB | 1 年前3 机器学习课程-温州大学-03机器学习-逻辑回归5 二分类 分类问题 1 2 我们先从用蓝色圆形数据定义为类 型1,其余数据为类型2; 只需要分类1次 步骤:①->② ① ② 二分类 6 多分类 分类问题 1 rest 1 2 rest One-vs-All (One-vs-Rest) 我们先定义其中一类为类型1(正 类),其余数据为负类(rest); 接下来去掉类型1数据,剩余部分 再次进行二分类,分成类型2和负 + ?, 则?可以融入到?0,即:?=?T? 9 2.Sigmoid函数 线性回归的函数 ℎ ? = ? = ?T?,范围是(−∞, +∞)。 而分类预测结果需要得到[0,1]的概率值。 在二分类模型中,事件的几率odds:事件发生与事件不发生的概率之比为 ? 1−?, 称为事件的发生比(the odds of experiencing an event) 其中?为随机事件发生的概率, (?)) ? ? 11 3.逻辑回归求解 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 12 3.逻辑回归求解 假设一个二分类模型: ?(? = 1|?; ?) = ℎ(?) ?(? = 0|?; ?) = 1 − ℎ(?) 则: ?(?|?; ?) = (ℎ(?))?(1 − ℎ(?))1−? 逻辑回归模型的假设是:0 码力 | 23 页 | 1.20 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版2021123 所示,表达式为: = { 1 ?T? + ? ≥ 0 −1 ?T? + ? < 0 图 6.2 阶跃函数 图 6.3 符号函数 添加激活函数后,感知机可以用来完成二分类任务。阶跃函数和符号函数在? = 0处是 不连续的,其他位置导数为 0,无法利用梯度下降算法进行参数优化。 为了能够让感知机模型能够从数据中间自动学习,Frank Rosenblatt 提出了感知机的学 第 6 章 神经网络 14 测,年龄的预测问题等。 ❑ ?? ∈ [0,1] 输出值特别地落在[0,1]的区间,如图片生成,图片像素值一般用[0, 1]区间 的值表示;或者二分类问题的概率,如硬币正反面的概率预测问题。 ❑ ?? ∈ [0, 1], ?? ? = 1 输出值落在[0,1]的区间,并且所有输出值之和为 1,常见的如 多分类问题,如 MNIST 手写数字图片识别,图片属于 输出值属于[0,1]区间也比较常见,比如图片的生成、二分类问题等。在机器学习中, 一般会将图片的像素值归一化到[0,1]区间,如果直接使用输出层的值,像素的值范围会分 布在整个实数空间。为了让像素的值范围映射到[0,1]的有效实数空间,需要在输出层后添 加某个合适的激活函数?,其中 Sigmoid 函数刚好具有此功能。 同样地,对于二分类问题,如硬币的正反面的预测,输出层可以只设置一个节点,0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版2021123 所示,表达式为: = { 1 ?T? + ? ≥ 0 −1 ?T? + ? < 0 图 6.2 阶跃函数 图 6.3 符号函数 添加激活函数后,感知机可以用来完成二分类任务。阶跃函数和符号函数在? = 0处是 不连续的,其他位置导数为 0,无法利用梯度下降算法进行参数优化。 为了能够让感知机模型能够从数据中间自动学习,Frank Rosenblatt 提出了感知机的学 第 6 章 神经网络 14 测,年龄的预测问题等。 ❑ ?? ∈ [0,1] 输出值特别地落在[0,1]的区间,如图片生成,图片像素值一般用[0, 1]区间 的值表示;或者二分类问题的概率,如硬币正反面的概率预测问题。 ❑ ?? ∈ [0, 1], ?? ? = 1 输出值落在[0,1]的区间,并且所有输出值之和为 1,常见的如 多分类问题,如 MNIST 手写数字图片识别,图片属于 输出值属于[0,1]区间也比较常见,比如图片的生成、二分类问题等。在机器学习中, 一般会将图片的像素值归一化到[0,1]区间,如果直接使用输出层的值,像素的值范围会分 布在整个实数空间。为了让像素的值范围映射到[0,1]的有效实数空间,需要在输出层后添 加某个合适的激活函数?,其中 Sigmoid 函数刚好具有此功能。 同样地,对于二分类问题,如硬币的正反面的预测,输出层可以只设置一个节点,0 码力 | 439 页 | 29.91 MB | 1 年前3
 机器学习课程-温州大学-04深度学习-深层神经网络01?, ?) Leaky ReLu通常比Relu激活函数效果要好, 尽管在实际中Leaky ReLu使用的并不多。 10 3.激活函数的使用场景 Sigmoid激活函数:除了输出层是一个二分类问题 基本不会用它。 Tanh激活函数:tanh是非常优秀的,几乎适合所有 场合。 ReLu激活函数:最常用的默认函数,,如果不确定 用哪个激活函数,就使用ReLu或者Leaky ReLu。 ??ሾ1] = ?ሾ2]???ሾ2] ∗ ?ሾ1]′(?ሾ1]) 注意:这里的矩阵: ?ሾ2]的维度是:(?ሾ2], ?ሾ1])。 ?ሾ2] , ??ሾ2]的维度都是:(?ሾ2], 1),如果是二分类,那维度就是(1,1)。 ?ሾ1],??ሾ1]的维度都是:(?ሾ1], 1)。 证明过程: 其中?ሾ2]???ሾ2]维度为:(?ሾ1], ?ሾ2])、(?ሾ2], 1)相乘得到(?ሾ1],0 码力 | 28 页 | 1.57 MB | 1 年前3 机器学习课程-温州大学-04深度学习-深层神经网络01?, ?) Leaky ReLu通常比Relu激活函数效果要好, 尽管在实际中Leaky ReLu使用的并不多。 10 3.激活函数的使用场景 Sigmoid激活函数:除了输出层是一个二分类问题 基本不会用它。 Tanh激活函数:tanh是非常优秀的,几乎适合所有 场合。 ReLu激活函数:最常用的默认函数,,如果不确定 用哪个激活函数,就使用ReLu或者Leaky ReLu。 ??ሾ1] = ?ሾ2]???ሾ2] ∗ ?ሾ1]′(?ሾ1]) 注意:这里的矩阵: ?ሾ2]的维度是:(?ሾ2], ?ሾ1])。 ?ሾ2] , ??ሾ2]的维度都是:(?ሾ2], 1),如果是二分类,那维度就是(1,1)。 ?ሾ1],??ሾ1]的维度都是:(?ሾ1], 1)。 证明过程: 其中?ሾ2]???ሾ2]维度为:(?ሾ1], ?ሾ2])、(?ሾ2], 1)相乘得到(?ሾ1],0 码力 | 28 页 | 1.57 MB | 1 年前3
 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入一个巨大的10,000维度的softmax,因为计算成本很高, 而是把它转变为10,000个二分类问题,每个都很容易计算 ,每次迭代我们要做的只是训练它们其中的5个,一般而言 就是? + 1个,其中?个负样本和1个正样本。这也是为什么 这个算法计算成本更低,因为只需更新? + 1个逻辑单元, ? + 1个二分类问题,相对而言每次迭代的成本比更新 10,000维的softmax分类器成本低。0 码力 | 44 页 | 2.36 MB | 1 年前3 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入一个巨大的10,000维度的softmax,因为计算成本很高, 而是把它转变为10,000个二分类问题,每个都很容易计算 ,每次迭代我们要做的只是训练它们其中的5个,一般而言 就是? + 1个,其中?个负样本和1个正样本。这也是为什么 这个算法计算成本更低,因为只需更新? + 1个逻辑单元, ? + 1个二分类问题,相对而言每次迭代的成本比更新 10,000维的softmax分类器成本低。0 码力 | 44 页 | 2.36 MB | 1 年前3
 机器学习课程-温州大学-10深度学习-人脸识别与风格迁移学习算法会尽可能地使右边这个式子变大(?(?, ?)),或者使左边这个式子 (?(?, ?))变小,这样左右两边至少有一个?的间隔。 15 1.人脸识别概述 用Triplet 损失训练 16 1.人脸识别概述 人脸识别与二分类 符号?(?(?))?代表图片?(?)的编码,下标?代表选择这个向量中的第?个元素, |?(?(?))? − ?(?(?))?|对这两个编码取元素差的绝对值 ?2公式,公式可以是?2 = (0 码力 | 34 页 | 2.49 MB | 1 年前3 机器学习课程-温州大学-10深度学习-人脸识别与风格迁移学习算法会尽可能地使右边这个式子变大(?(?, ?)),或者使左边这个式子 (?(?, ?))变小,这样左右两边至少有一个?的间隔。 15 1.人脸识别概述 用Triplet 损失训练 16 1.人脸识别概述 人脸识别与二分类 符号?(?(?))?代表图片?(?)的编码,下标?代表选择这个向量中的第?个元素, |?(?(?))? − ?(?(?))?|对这两个编码取元素差的绝对值 ?2公式,公式可以是?2 = (0 码力 | 34 页 | 2.49 MB | 1 年前3
 《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别McCulloch 和 Walter Pitts 在神经元建模方面工作的启发,心理学家 Frank Rosenblatt 参考大脑中神经元信息传递信号的工作机制,发明了神经感知机模型 Perceptron 。 二分类模型 神经网络 在机器学习和认知科学领域,人工神经网络(ANN),简称神经网络(NN)是一种模仿生物 神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于 对函0 码力 | 38 页 | 1.82 MB | 1 年前3 《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别McCulloch 和 Walter Pitts 在神经元建模方面工作的启发,心理学家 Frank Rosenblatt 参考大脑中神经元信息传递信号的工作机制,发明了神经感知机模型 Perceptron 。 二分类模型 神经网络 在机器学习和认知科学领域,人工神经网络(ANN),简称神经网络(NN)是一种模仿生物 神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于 对函0 码力 | 38 页 | 1.82 MB | 1 年前3
 机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 向量; • 这些向量输入到transformer中进行自注意力的特征提取; • 输出的是50个128向量,然后对这个50个求均值,变成一个128向量; • 然后线性层把128维变成2维从而完成二分类任务的transformer模型。 主要思路 32 5. 模型的代码实现 image_size:int 类型参数,图片大小。 如果您有矩 形图像,请确保图像尺寸为宽度和高度的最大值 patch_size:int0 码力 | 34 页 | 2.78 MB | 1 年前3 机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) 向量; • 这些向量输入到transformer中进行自注意力的特征提取; • 输出的是50个128向量,然后对这个50个求均值,变成一个128向量; • 然后线性层把128维变成2维从而完成二分类任务的transformer模型。 主要思路 32 5. 模型的代码实现 image_size:int 类型参数,图片大小。 如果您有矩 形图像,请确保图像尺寸为宽度和高度的最大值 patch_size:int0 码力 | 34 页 | 2.78 MB | 1 年前3
 《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别交叉熵(Cross-Entropy, CE) 我们使用交叉熵作为该模型的损失函数。 虽然 Categorical / Binary CE 是更常用的损失函数,不过他们都是 CE 的变体。 CE 定义如下: 对于二分类问题 (C‘=2) ,CE 定义如下: Categorical CE Loss(Softmax Loss) 常用于输出为 One-hot 向量的多类别分类(Multi-Class Classification)模型。0 码力 | 51 页 | 2.73 MB | 1 年前3 《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别交叉熵(Cross-Entropy, CE) 我们使用交叉熵作为该模型的损失函数。 虽然 Categorical / Binary CE 是更常用的损失函数,不过他们都是 CE 的变体。 CE 定义如下: 对于二分类问题 (C‘=2) ,CE 定义如下: Categorical CE Loss(Softmax Loss) 常用于输出为 One-hot 向量的多类别分类(Multi-Class Classification)模型。0 码力 | 51 页 | 2.73 MB | 1 年前3
 机器学习课程-温州大学-Scikit-learnfit(X_train, y_train) y_pred = clf.predict(X_test) y_prob = clf.predict_proba(X_test) 使用决策树分类算法解决二分类问题, y_prob 为每个样本预测为 “0”和“1”类的概率 16 1.Scikit-learn概述 逻辑回归 支持向量机 朴素贝叶斯 K近邻 linear_model.LogisticRegression0 码力 | 31 页 | 1.18 MB | 1 年前3 机器学习课程-温州大学-Scikit-learnfit(X_train, y_train) y_pred = clf.predict(X_test) y_prob = clf.predict_proba(X_test) 使用决策树分类算法解决二分类问题, y_prob 为每个样本预测为 “0”和“1”类的概率 16 1.Scikit-learn概述 逻辑回归 支持向量机 朴素贝叶斯 K近邻 linear_model.LogisticRegression0 码力 | 31 页 | 1.18 MB | 1 年前3
共 17 条
- 1
- 2













