 机器学习课程-温州大学-08机器学习-集成学习LightGBM 的主要改进 LightGBM与XGBoost相比,主要有以下几个改进: • 基于梯度的单边采样算法(Gradient-based One-Side Sampling, GOSS); • 互斥特征捆绑算法(Exclusive Feature Bundling, EFB); • 直方图算法( Histogram ); • 基于最大深度的 Leaf-wise 的垂直生长算法; LightGBM 这里选取两个大的(6号、7号),然后随机选择两个小的(2号、4号) 41 4.LightGBM 互斥特征捆绑算法(Exclusive Feature Bundling, EFB) 高维特征往往是稀疏的,而且特征间可能是相互排斥的(如两个特征不同时取非 零值),如果两个特征并不完全互斥(如只有一部分情况下是不同时取非零值) ,可以用互斥率表示互斥程度。EFB算法指出如果将一些特征进行融合绑定,则 可以降低特征数量。 论文给出特征合并算法,其关键在于原始特征能从合并的特征中分离出来。 42 4.LightGBM 互斥特征捆绑算法(Exclusive Feature Bundling, EFB) 高维特征往往是稀疏的,而且特征间可能 是相互排斥的(如两个特征不同时取非零 值),如果两个特征并不完全互斥(如只 有一部分情况下是不同时取非零值),可 以用互斥率表示互斥程度。EFB算法指出如 果将一些特征进行融合绑定,则可以降低 特征数量。0 码力 | 50 页 | 2.03 MB | 1 年前3 机器学习课程-温州大学-08机器学习-集成学习LightGBM 的主要改进 LightGBM与XGBoost相比,主要有以下几个改进: • 基于梯度的单边采样算法(Gradient-based One-Side Sampling, GOSS); • 互斥特征捆绑算法(Exclusive Feature Bundling, EFB); • 直方图算法( Histogram ); • 基于最大深度的 Leaf-wise 的垂直生长算法; LightGBM 这里选取两个大的(6号、7号),然后随机选择两个小的(2号、4号) 41 4.LightGBM 互斥特征捆绑算法(Exclusive Feature Bundling, EFB) 高维特征往往是稀疏的,而且特征间可能是相互排斥的(如两个特征不同时取非 零值),如果两个特征并不完全互斥(如只有一部分情况下是不同时取非零值) ,可以用互斥率表示互斥程度。EFB算法指出如果将一些特征进行融合绑定,则 可以降低特征数量。 论文给出特征合并算法,其关键在于原始特征能从合并的特征中分离出来。 42 4.LightGBM 互斥特征捆绑算法(Exclusive Feature Bundling, EFB) 高维特征往往是稀疏的,而且特征间可能 是相互排斥的(如两个特征不同时取非零 值),如果两个特征并不完全互斥(如只 有一部分情况下是不同时取非零值),可 以用互斥率表示互斥程度。EFB算法指出如 果将一些特征进行融合绑定,则可以降低 特征数量。0 码力 | 50 页 | 2.03 MB | 1 年前3
 机器学习课程-温州大学-概率论回顾,且? ⊂ ? 。 (3) 和事件:?⋃?(或? + ?),?与?中至少有一个发生。 (4) 差事件:? − ?,?发生但?不发生。 (5) 积事件:?⋂?(或??),?与?同时发生。 (6) 互斥事件(互不相容):?⋂?=⌀。 (7) 互逆事件(对立事件): ?⋂? = ⌀, ?⋃? = ?, ? = ?, ? = ? 。 1.随机事件和概率 5 2.运算律 (1) 交换律:?⋃? (?⋂?)⋂? = ?⋂(?⋂?) (3) 分配律:(?⋃?)⋂? = (?⋂?)⋃(?⋂?) 3.德.摩根律 ?⋃? = ?⋂? ?⋂? = ?⋃? 4.完全事件组 ?1?2 ⋯ ??两两互斥,且和事件为必然事件,即??⋂?? = ⌀, ? ≠ ?, ⋃ ? ?=1 = ? 1.随机事件和概率 6 5.概率的基本概念 (1) 概率:事件发生的可能性大小的度量,其严格定义如下: )且?(?) ≤ ?(?); ?(?⋃?⋃?) = ?(?) + ?(?) + ?(?) − ?(??) − ?(??) − ?(??) + ?(???) 4) 若?1, ?2, ⋯ , ??两两互斥,则?( ⋃ ? ?=1 ??) = σ?=1 ? (?(??) 1.随机事件和概率 8 (3) 古典型概率: 实验的所有结果只有有限个, 且每个结果发生的可能性相同,其概率计算 公式:0 码力 | 45 页 | 862.61 KB | 1 年前3 机器学习课程-温州大学-概率论回顾,且? ⊂ ? 。 (3) 和事件:?⋃?(或? + ?),?与?中至少有一个发生。 (4) 差事件:? − ?,?发生但?不发生。 (5) 积事件:?⋂?(或??),?与?同时发生。 (6) 互斥事件(互不相容):?⋂?=⌀。 (7) 互逆事件(对立事件): ?⋂? = ⌀, ?⋃? = ?, ? = ?, ? = ? 。 1.随机事件和概率 5 2.运算律 (1) 交换律:?⋃? (?⋂?)⋂? = ?⋂(?⋂?) (3) 分配律:(?⋃?)⋂? = (?⋂?)⋃(?⋂?) 3.德.摩根律 ?⋃? = ?⋂? ?⋂? = ?⋃? 4.完全事件组 ?1?2 ⋯ ??两两互斥,且和事件为必然事件,即??⋂?? = ⌀, ? ≠ ?, ⋃ ? ?=1 = ? 1.随机事件和概率 6 5.概率的基本概念 (1) 概率:事件发生的可能性大小的度量,其严格定义如下: )且?(?) ≤ ?(?); ?(?⋃?⋃?) = ?(?) + ?(?) + ?(?) − ?(??) − ?(??) − ?(??) + ?(???) 4) 若?1, ?2, ⋯ , ??两两互斥,则?( ⋃ ? ?=1 ??) = σ?=1 ? (?(??) 1.随机事件和概率 8 (3) 古典型概率: 实验的所有结果只有有限个, 且每个结果发生的可能性相同,其概率计算 公式:0 码力 | 45 页 | 862.61 KB | 1 年前3
 机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)? 。 (3) 和事件:?⋃?(或? + ?),?与?中至少有一个发生。 (4) 差事件:? − ?,?发生但?不发生。 (5) 积事件:?⋂?(或??),?与?同时发生。 (6) 互斥事件(互不相容):?⋂?=⌀。 (7) 互逆事件(对立事件): ?⋂? = ⌀, ?⋃? = ?, ? = ?, ? = ? 。 2.运算律 (1) 交换律:?⋃? = ?⋃?, ?⋂ ⋂(?⋂?) (3) 分配律:(?⋃?)⋂? = (?⋂?)⋃(?⋂?) 3.德.摩根律 ?⋃? = ?⋂? ?⋂? = ?⋃? 4.完全事件组 ?1?2 ⋯ ??两两互斥,且和事件为必然事件,即??⋂?? = ⌀, ? ≠ ?, ⋃ ? ?=1 = ? 5.概率的基本概念 (1) 概率:事件发生的可能性大小的度量,其严格定义如下: 机器学习的数学基础 )且 ?(?) ≤ ?(?); ?(?⋃?⋃?) = ?(?) + ?(?) + ?(?) − ?(??) − ?(??) − ?(??) + ?(???) 4) 若?1, ?2,⋯ , ??两两互斥,则?( ⋃ ? ?=1 ??) = ∑ (?(??) ? ?=1 (3) 古典型概率: 实验的所有结果只有有限个, 且每个结果发生的可能性相同,其概率计 算公式: ?(?) = 事件0 码力 | 31 页 | 1.18 MB | 1 年前3 机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)? 。 (3) 和事件:?⋃?(或? + ?),?与?中至少有一个发生。 (4) 差事件:? − ?,?发生但?不发生。 (5) 积事件:?⋂?(或??),?与?同时发生。 (6) 互斥事件(互不相容):?⋂?=⌀。 (7) 互逆事件(对立事件): ?⋂? = ⌀, ?⋃? = ?, ? = ?, ? = ? 。 2.运算律 (1) 交换律:?⋃? = ?⋃?, ?⋂ ⋂(?⋂?) (3) 分配律:(?⋃?)⋂? = (?⋂?)⋃(?⋂?) 3.德.摩根律 ?⋃? = ?⋂? ?⋂? = ?⋃? 4.完全事件组 ?1?2 ⋯ ??两两互斥,且和事件为必然事件,即??⋂?? = ⌀, ? ≠ ?, ⋃ ? ?=1 = ? 5.概率的基本概念 (1) 概率:事件发生的可能性大小的度量,其严格定义如下: 机器学习的数学基础 )且 ?(?) ≤ ?(?); ?(?⋃?⋃?) = ?(?) + ?(?) + ?(?) − ?(??) − ?(??) − ?(??) + ?(???) 4) 若?1, ?2,⋯ , ??两两互斥,则?( ⋃ ? ?=1 ??) = ∑ (?(??) ? ?=1 (3) 古典型概率: 实验的所有结果只有有限个, 且每个结果发生的可能性相同,其概率计 算公式: ?(?) = 事件0 码力 | 31 页 | 1.18 MB | 1 年前3
 机器学习课程-温州大学-01机器学习-引言,且? ⊂ ? 。 (3) 和事件:?⋃?(或? + ?),?与?中至少有一个发生。 (4) 差事件:? − ?,?发生但?不发生。 (5) 积事件:?⋂?(或??),?与?同时发生。 (6) 互斥事件(互不相容):?⋂?=⌀。 (7) 互逆事件(对立事件): ?⋂? = ⌀, ?⋃? = ?, ? = ?, ? = ? 。 运算律 (1) 交换律:?⋃? = ?⋃?, ?⋂? = ?⋂0 码力 | 78 页 | 3.69 MB | 1 年前3 机器学习课程-温州大学-01机器学习-引言,且? ⊂ ? 。 (3) 和事件:?⋃?(或? + ?),?与?中至少有一个发生。 (4) 差事件:? − ?,?发生但?不发生。 (5) 积事件:?⋂?(或??),?与?同时发生。 (6) 互斥事件(互不相容):?⋂?=⌀。 (7) 互逆事件(对立事件): ?⋂? = ⌀, ?⋃? = ?, ? = ?, ? = ? 。 运算律 (1) 交换律:?⋃? = ?⋃?, ?⋂? = ?⋂0 码力 | 78 页 | 3.69 MB | 1 年前3
 机器学习课程-温州大学-01深度学习-引言,且? ⊂ ? 。 (3) 和事件:?⋃?(或? + ?),?与?中至少有一个发生。 (4) 差事件:? − ?,?发生但?不发生。 (5) 积事件:?⋂?(或??),?与?同时发生。 (6) 互斥事件(互不相容):?⋂?=⌀。 (7) 互逆事件(对立事件): ?⋂? = ⌀, ?⋃? = ?, ? = ?, ? = ? 。 运算律 (1) 交换律:?⋃? = ?⋃?, ?⋂? = ?⋂0 码力 | 80 页 | 5.38 MB | 1 年前3 机器学习课程-温州大学-01深度学习-引言,且? ⊂ ? 。 (3) 和事件:?⋃?(或? + ?),?与?中至少有一个发生。 (4) 差事件:? − ?,?发生但?不发生。 (5) 积事件:?⋂?(或??),?与?同时发生。 (6) 互斥事件(互不相容):?⋂?=⌀。 (7) 互逆事件(对立事件): ?⋂? = ⌀, ?⋃? = ?, ? = ?, ? = ? 。 运算律 (1) 交换律:?⋃? = ?⋃?, ?⋂? = ?⋂0 码力 | 80 页 | 5.38 MB | 1 年前3
 动手学深度学习 v2.0件A的概率,表示 为P(A),满足以下属性: • 对于任意事件A,其概率从不会是负数,即P(A) ≥ 0; 76 2. 预备知识 • 整个样本空间的概率为1,即P(S) = 1; • 对于互斥(mutually exclusive)事件(对于所有i ̸= j都有Ai ∩Aj = ∅)的任意一个可数序列A1, A2, . . ., 序列中任意一个事件发生的概率等于它们各自发生的概率之和,即P(�∞ 深度学习计算 5.1.4 效率 读者可能会开始担心操作效率的问题。毕竟,我们在一个高性能的深度学习库中进行了大量的字典查找、代 码执行和许多其他的Python代码。Python的问题全局解释器锁74 是众所周知的。在深度学习环境中,我们担 心速度极快的GPU可能要等到CPU运行Python代码后才能运行另一个作业。 小结 • 一个块可以由许多层组成;一个块可以由许多块组成。 • 块可以包含代码。 到店的时候,咖啡已经准备好了。 最后,当我们打印张量或将张量转换为NumPy格式时,如果数据不在内存中,框架会首先将其复制到内存中, 这会导致额外的传输开销。更糟糕的是,它现在受制于全局解释器锁,使得一切都得等待Python完成。 5.6.3 神经网络与GPU 类似地,神经网络模型可以指定设备。下面的代码将模型参数放在GPU上。 net = nn.Sequential(nn.Linear(30 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.0件A的概率,表示 为P(A),满足以下属性: • 对于任意事件A,其概率从不会是负数,即P(A) ≥ 0; 76 2. 预备知识 • 整个样本空间的概率为1,即P(S) = 1; • 对于互斥(mutually exclusive)事件(对于所有i ̸= j都有Ai ∩Aj = ∅)的任意一个可数序列A1, A2, . . ., 序列中任意一个事件发生的概率等于它们各自发生的概率之和,即P(�∞ 深度学习计算 5.1.4 效率 读者可能会开始担心操作效率的问题。毕竟,我们在一个高性能的深度学习库中进行了大量的字典查找、代 码执行和许多其他的Python代码。Python的问题全局解释器锁74 是众所周知的。在深度学习环境中,我们担 心速度极快的GPU可能要等到CPU运行Python代码后才能运行另一个作业。 小结 • 一个块可以由许多层组成;一个块可以由许多块组成。 • 块可以包含代码。 到店的时候,咖啡已经准备好了。 最后,当我们打印张量或将张量转换为NumPy格式时,如果数据不在内存中,框架会首先将其复制到内存中, 这会导致额外的传输开销。更糟糕的是,它现在受制于全局解释器锁,使得一切都得等待Python完成。 5.6.3 神经网络与GPU 类似地,神经网络模型可以指定设备。下面的代码将模型参数放在GPU上。 net = nn.Sequential(nn.Linear(30 码力 | 797 页 | 29.45 MB | 1 年前3
 从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱GPU训练的优势 � 更少的机器节点,更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同 构性 推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁:基于模型版本的读写分离 � 多机:多副本并⾏读取 � CPU:固定64位key,基于L1缓存的查 询优化 � 业务需求 � 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下0 码力 | 22 页 | 6.76 MB | 1 年前3 从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱GPU训练的优势 � 更少的机器节点,更少的分布式系统相关问题 � 更⾼的性价⽐ 1. 减少节点数 2. 提升节点同 构性 推理服务—分布式Serving架构 � 读写架构 � 多线程⽆锁:基于模型版本的读写分离 � 多机:多副本并⾏读取 � CPU:固定64位key,基于L1缓存的查 询优化 � 业务需求 � 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下0 码力 | 22 页 | 6.76 MB | 1 年前3
 微博在线机器学习和深度学习实践-黄波冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍0 码力 | 36 页 | 16.69 MB | 1 年前3 微博在线机器学习和深度学习实践-黄波冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍0 码力 | 36 页 | 16.69 MB | 1 年前3
 Keras: 基于 Python 的深度学习库首先,我们只训练顶部的几层(随机初始化的层) # 锁住所有 InceptionV3 的卷积层 for layer in base_model.layers: layer.trainable = False # 编译模型(一定要在锁层以后操作) model.compile(optimizer='rmsprop', loss='categorical_crossentropy') # 在新的数据集上训练几代 model.fit_generator( 现在顶层应该训练好了,让我们开始微调 Inception V3 的卷积层。 # 我们会锁住底下的几层,然后训练其余的顶层。 预训练模型 APPLICATIONS 161 # 让我们看看每一层的名字和层号,看看我们应该锁多少层呢: for i, layer in enumerate(base_model.layers): print(i, layer.name) # 我们选择训练最上面的两个 Inception0 码力 | 257 页 | 1.19 MB | 1 年前3 Keras: 基于 Python 的深度学习库首先,我们只训练顶部的几层(随机初始化的层) # 锁住所有 InceptionV3 的卷积层 for layer in base_model.layers: layer.trainable = False # 编译模型(一定要在锁层以后操作) model.compile(optimizer='rmsprop', loss='categorical_crossentropy') # 在新的数据集上训练几代 model.fit_generator( 现在顶层应该训练好了,让我们开始微调 Inception V3 的卷积层。 # 我们会锁住底下的几层,然后训练其余的顶层。 预训练模型 APPLICATIONS 161 # 让我们看看每一层的名字和层号,看看我们应该锁多少层呢: for i, layer in enumerate(base_model.layers): print(i, layer.name) # 我们选择训练最上面的两个 Inception0 码力 | 257 页 | 1.19 MB | 1 年前3
共 9 条
- 1













