Experiment 6: K-MeansExperiment 6: K-Means November 27, 2018 1 Description In this exercise, you will use K-means to compress an image by reducing the number of colors it contains. To begin, download data6.zip and unpack RGB values of the 16 colors present in the image. In this exercise, you will use K-means to reduce the color count to k = 16. That is, you will compute 16 colors as the cluster centroids and replace each instead run K-means on the 128×128 image bird small.tiff. Once you have computed the cluster centroids on the small image, you will then use the 16 colors to replace the pixels in the large image. 3 K-means0 码力 | 3 页 | 605.46 KB | 1 年前3
Lecture 7: K-MeansLecture 7: K-Means Feng Li Shandong University fli@sdu.edu.cn December 28, 2021 Feng Li (SDU) K-Means December 28, 2021 1 / 46 Outline 1 Clustering 2 K-Means Method 3 K-Means Optimization Problem Problem 4 Kernel K-Means 5 Hierarchical Clustering Feng Li (SDU) K-Means December 28, 2021 2 / 46 Clustering Usually an unsupervised learning problem Given: N unlabeled examples {x1, · · · , xN}; no no. of desired partitions K Goal: Group the examples into K “homogeneous” partitions Loosely speaking, it is classification without ground truth labels A good clustering is one that achieves: High within-cluster0 码力 | 46 页 | 9.78 MB | 1 年前3
Keras: 基于 Python 的深度学习库. . . . . . . . . . . . . . . . . 137 8.2.4 top_k_categorical_accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 8.2.5 sparse_top_k_categorical_accuracy . . . . . . . . . . . . . . compile(optimizer='rmsprop', loss='mse') # 自定义评估标准函数 import keras.backend as K def mean_pred(y_true, y_pred): return K.mean(y_pred) model.compile(optimizer='rmsprop', loss='binary_crossentropy', 期望输入数据尺寸: (batch_size, timesteps, data_dim) # 请注意,我们必须提供完整的 batch_input_shape,因为网络是有状态的。 # 第 k 批数据的第 i 个样本是第 k-1 批数据的第 i 个样本的后续。 model = Sequential() model.add(LSTM(32, return_sequences=True, stateful=True0 码力 | 257 页 | 1.19 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)13.渐近线的求法 (1)水平渐近线 若 lim ?→+∞ ?(?) = ?,或 lim ?→−∞ ?(?) = ?,则? = ? 称为函数? = ?(?)的水平渐近线。 (2)铅直渐近线 若 lim ?→?0 − ?(?) = ∞,或 lim ?→?0 + ?(?) = ∞,则? = ?0 称为? = ?(?)的铅直渐近线。 (3)斜渐近线 若? = lim lim ?→∞ ?(?) ? , ? = lim ?→∞ [?(?) − ??],则 ? = ?? + ?称为? = ?(?)的斜渐 近线。 14.函数凹凸性的判断 Th1: (凹凸性的判别定理)若在 I 上?″(?) < 0(或?″(?) > 0), 则?(?)在 I 上是凸的 (或凹的)。 Th2: (拐点的判别定理 1)若在?0处?″(?) = 0,(或?″(?)不存在),当 有关向量组的线性相关性 (1)部分相关,整体相关;整体无关,部分无关. (2) ① ?个?维向量 ?1, ?2 ⋯ ??线性无关⇔ |[?1?2 ⋯ ??]| ≠ 0, ?个?维向量?1, ?2 ⋯ ??线 性相关 ⇔ |[?1, ?2, ⋯ , ??]| = 0 。 ② ? + 1个?维向量线性相关。 ③ 若?1, ?2 ⋯ ??线性无关,则添加分量后仍线性无关;或一组向量线性相关,去掉某些分0 码力 | 31 页 | 1.18 MB | 1 年前3
动手学深度学习 v2.0训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 4.10.6 K折交叉验证 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 4.10.7 模型选择 同样,给定一组用户的网页浏览记录,我们能 否将具有相似行为的用户聚类呢? • 主成分分析(principal component analysis)问题:我们能否找到少量的参数来准确地捕捉数据的线 性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。再比如,裁缝们已经开发 出了一小部分参数,这些参数相当准确地描述了人体的形状,以适应衣服的需要。另一个例子:在欧几 里得空间 数据集vs计算机内存和计算能力 年代 数据规模 内存 每秒浮点运算 1970 100 (鸢尾花卉) 1 KB 100 KF (Intel 8080) 1980 1 K (波士顿房价) 100 KB 1 MF (Intel 80186) 1990 10 K (光学字符识别) 10 MB 10 MF (Intel 80486) 2000 10 M (网页) 100 MB 1 GF (Intel Core)0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-05机器学习-机器学习实践机器学习:60%,20%,20%;70%,10%,20% 深度学习:98%,1%,1% (假设百万条数据) 1.数据集划分 数据集 训练集 验证集 测试集 5 交叉验证 1. 使用训练集训练出k个模型 2. 用k个模型分别对交叉验证集计算得 出交叉验证误差(代价函数的值) 3. 选取代价函数值最小的模型 4. 用步骤3中选出的模型对测试集计算得出 推广误差(代价函数的值) 6 数据不平衡是指数据集中各类样本数量不均衡的情况 征数据分布没有发生改变。 就是当数据特征取值范围或单位差异 较大时,最好是做一下标准化处理。 3.正则化、偏差和方差 18 需要做数据归一化/标准化 线性模型,如基于距离度量的模型包括KNN(K近邻)、K-means聚类、 感知机和SVM、神经网络。另外,线性回归类的几个模型一般情况下也 是需要做数据归一化/标准化处理的。 不需要做数据归一化/标准化 决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取 ? ̰? (?) , ?(?) + ? 2? σ?=1 ? ?? 2 正则化 24 ??正则化可以防止过拟合 正则化 ??正则化可以产生稀疏模型 图上面中的蓝色轮廓线是没有正则化损失函数的等高线,中心的蓝色点为最优解,左图、右图分别为??、??正则化给出的限制。 可以看到在正则化的限制之下, ??正则化给出的最优解w*是使解更加靠近原点,也就是说??正则化能降低参数范数的总和。0 码力 | 33 页 | 2.14 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版2021127407&courseId=1209092816&_trace_c _p_k2_=9e74eb6f891d47cfaa6f00b5cb 5f617c https://study.163.com/course/courseMain.h tm?share=2&shareId=480000001847407& courseId=1208894818&_trace_c_p_k2_=8 d1b10e04bd34d69855bb71da65b0549 受限Boltzmann 1986 RNN 1986 1986 MLP 1990 LeNet 双向RNN 1997 1997 LSTM 2006 DBN深度 置信网络 图 1.8 浅层神经网络发展时间线 1.2.2 深度学习 2006 年,Geoffrey Hinton 等人发现通过逐层预训练的方式可以较好地训练多层神经网 络,并在 MNIST 手写数字图片数据集上取得了优于 SVM 2019 机器翻译 BERT 2018 TensorFlow 发布 2015 PyTorch 0.1 发布 2017 2018 PyTorch 1.0 发布 图 1.9 深度学习发展时间线 1.3 深度学习特点 与传统的机器学习算法、浅层神经网络相比,现代的深度学习算法通常具有如下显著 特点。 1.3.1 数据量 早期的机器学习算法比较简单,容易快速训练,需要的数据集规模也比较小,如0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-02机器学习-回归征数据分布没有发生改变。 就是当数据特征取值范围或单位差异 较大时,最好是做一下标准化处理。 21 数据归一化/标准化 需要做数据归一化/标准化 线性模型,如基于距离度量的模型包括KNN(K近邻)、K-means聚类、 感知机和SVM。另外,线性回归类的几个模型一般情况下也是需要做数 据归一化/标准化处理的。 不需要做数据归一化/标准化 决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取 • 1≥ρ≥0为比例系数,调整L1正则化与L2正 则化的比例。 正则化 (弹性网络) 28 L2正则化可以防止过拟合 正则化 L1正则化可以产生稀疏模型 图上面中的蓝色轮廓线是没有正则化损失函数的等高线,中心的蓝色点为最优解,左图、右图分别为L1、L2正则化给出的限制。 可以看到在正则化的限制之下, ??正则化给出的最优解w*是使解更加靠近原点,也就是说??正则化能降低参数范数的总和。 org/course/ml [2] 李航. 统计学习方法[M]. 北京: 清华大学出版社,2019. [3] 周志华. 机器学习[M]. 北京: 清华大学出版社,2016. [4] WEINBERGER K. Distance metric learning for large margin nearest neighbor classification[J]. Advances in Neural0 码力 | 33 页 | 1.50 MB | 1 年前3
全连接神经网络实战. pytorch 版内部定义函数: def weight_init ( s e l f ) : #遍 历 网 络 的 每 一 层 fo r m in s e l f . modules () : #如 果 该 层 是 线 性 连 接 层 i f i s i n s t a n c e (m, nn . Linear ) : print (m. weight . shape ) print (m. bias . shape l f . state_dict () fo r key , value in s e l f . state_dict () . items () : # 根 据 命 名 来 筛 选, 只 要 线 性 部 分 i f ’ l i n e a r ’ in key : # 方 法 一: a=torch . normal (0 ,0.1 , t [ key ] . shape ) t [ key . s c a t t e r ( data2_x1 , data2_x2 , s = 20 , c=label2 , zorder =2, linewidths =1, edgecolors=’k ’ ) plt . show () 得到可视化结果: 可以看到不同的类别显示都是正确的。下面我们把模型分类的结果显示一下: Chapter 4. 构建自己的数据集 25 label2_test0 码力 | 29 页 | 1.40 MB | 1 年前3
机器学习课程-温州大学-06机器学习-KNN算法曼哈顿距离(Manhattan distance) ?(?, ?) = ? | ?? − ??| 想象你在城市道路里,要从一个十字路口开车 到另外一个十字路口,驾驶距离是两点间的直 线距离吗?显然不是,除非你能穿越大楼。实 际驾驶距离就是这个“曼哈顿距离”。而这也 是曼哈顿距离名称的来源, 曼哈顿距离也称 为城市街区距离(City Block distance)。 6 距离度量 × σ?=1 ? ( ??)2 10 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 2.KNN算法 11 2.KNN算法 ?近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算 法,可以用于基本的分类与回归方法。 算法的主要思路: 如果一个样本在特征空间中与?个实例最为相似(即特征空间中最邻近),那么这 2.KNN算法 ?近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是 最简单的机器学习算法,可以用于基本的分类与回归方法。 ?近邻法的三要素: • ?值选择。 • 距离度量。 • 决策规则。 13 2.KNN算法 算法流程如下: 1.计算测试对象到训练集中每个对象的距离 2.按照距离的远近排序 3.选取与当前测试对象最近的k的训练对象, 作为该测试对象的邻居0 码力 | 26 页 | 1.60 MB | 1 年前3
共 77 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













