 机器学习课程-温州大学-06深度学习-优化算法1 2023年04月 深度学习-优化算法 黄海广 副教授 2 01 小批量梯度下降 本章目录 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 3 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 1.小批量梯度下降 4 小批量梯度下降 小批量梯度下降(Mini-Batch ?(?) ?? (?) (同步更新?? ,(j=0,1,...,n )) 5 小批量梯度下降 6 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 2.优化算法 7 伦敦温度的例子 days temperature ?1 = 40°F ?2 = 49°F ?3 = 45°F ... ?180 = ?2,再说一次,平 方是针对整个符号的操作。 接着RMSprop会这样更新参数值,?: = ? − ? ?? ???,?: = ? − ? ?? ???, 12 ADAM Adam优化算法基本上就是将Momentum和RMSprop结合在一起 最后更新权重,所以?更新后是?: = ? − ???? corrected ??? corrected+? (如果你只是用 Momentum,使用0 码力 | 31 页 | 2.03 MB | 1 年前3 机器学习课程-温州大学-06深度学习-优化算法1 2023年04月 深度学习-优化算法 黄海广 副教授 2 01 小批量梯度下降 本章目录 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 3 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 1.小批量梯度下降 4 小批量梯度下降 小批量梯度下降(Mini-Batch ?(?) ?? (?) (同步更新?? ,(j=0,1,...,n )) 5 小批量梯度下降 6 01 小批量梯度下降 02 优化算法 03 超参数调整和BatchNorm 04 Softmax 2.优化算法 7 伦敦温度的例子 days temperature ?1 = 40°F ?2 = 49°F ?3 = 45°F ... ?180 = ?2,再说一次,平 方是针对整个符号的操作。 接着RMSprop会这样更新参数值,?: = ? − ? ?? ???,?: = ? − ? ?? ???, 12 ADAM Adam优化算法基本上就是将Momentum和RMSprop结合在一起 最后更新权重,所以?更新后是?: = ? − ???? corrected ??? corrected+? (如果你只是用 Momentum,使用0 码力 | 31 页 | 2.03 MB | 1 年前3
 优化小实例2D函数优化实例 主讲人:龙良曲 Himmelblau function Minima Plot Gradient Descent 下一课时 MNIST反向传播 Thank You.0 码力 | 7 页 | 542.69 KB | 1 年前3 优化小实例2D函数优化实例 主讲人:龙良曲 Himmelblau function Minima Plot Gradient Descent 下一课时 MNIST反向传播 Thank You.0 码力 | 7 页 | 542.69 KB | 1 年前3
 房源质量打分中深度学习应用及算法优化-周玉驰2019 KE.COM ALL COPYRIGHTS RESERVED 1 周玉驰 贝壳找房 - 数据智能中心 - 策略算法部 AI选房中深度学习的实践及优化 2019 KE.COM ALL COPYRIGHTS RESERVED 2 2019 KE.COM ALL COPYRIGHTS RESERVED 2 2019 KE.COM ALL COPYRIGHTS RESERVED 3 COPYRIGHTS RESERVED 6 贝壳找房发展&挑战 20万 经纪人 98 门店平均房源 2.1万 门店 10-25 经纪人熟悉房源 70% 跨店成交占比 1.87亿 房屋 3000万 月活跃用户 • 需要强大的房源质量盘点工具 • 找到好房难度大,成本高 挑战 200万 贝壳全部房源 2019 KE.COM ALL COPYRIGHTS RESERVED 7 目标&价值 平台 RESERVED 14 模型演变历程 2019 KE.COM ALL COPYRIGHTS RESERVED 15 模型演变历程 v1.0 初版模型系统 v2.0 深度学习模型 v2.0+ 效果持续优化 XGBoost DNN+RNN 特征建设 v1.0 初版模型系统 2019 KE.COM ALL COPYRIGHTS RESERVED 16 v1.0 - 初版模型系统概览 • 房源特征0 码力 | 48 页 | 3.75 MB | 1 年前3 房源质量打分中深度学习应用及算法优化-周玉驰2019 KE.COM ALL COPYRIGHTS RESERVED 1 周玉驰 贝壳找房 - 数据智能中心 - 策略算法部 AI选房中深度学习的实践及优化 2019 KE.COM ALL COPYRIGHTS RESERVED 2 2019 KE.COM ALL COPYRIGHTS RESERVED 2 2019 KE.COM ALL COPYRIGHTS RESERVED 3 COPYRIGHTS RESERVED 6 贝壳找房发展&挑战 20万 经纪人 98 门店平均房源 2.1万 门店 10-25 经纪人熟悉房源 70% 跨店成交占比 1.87亿 房屋 3000万 月活跃用户 • 需要强大的房源质量盘点工具 • 找到好房难度大,成本高 挑战 200万 贝壳全部房源 2019 KE.COM ALL COPYRIGHTS RESERVED 7 目标&价值 平台 RESERVED 14 模型演变历程 2019 KE.COM ALL COPYRIGHTS RESERVED 15 模型演变历程 v1.0 初版模型系统 v2.0 深度学习模型 v2.0+ 效果持续优化 XGBoost DNN+RNN 特征建设 v1.0 初版模型系统 2019 KE.COM ALL COPYRIGHTS RESERVED 16 v1.0 - 初版模型系统概览 • 房源特征0 码力 | 48 页 | 3.75 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版202112第 2 章 回归问题 2.1 神经元模型 2.2 优化方法 2.3 线性模型实战 2.4 线性回归 2.5 参考文献 第 3 章 分类问题 3.1 手写数字图片数据集 3.2 模型构建 3.3 误差计算 3.4 真的解决了吗 3.5 非线性模型 3.6 表达能力 3.7 优化方法 3.8 手写数字图片识别体验 3.9 小结 3 3.10 参考文献 第 4 章 PyTorch 基础 4.1 数据类型 4.2 数值精度 4.3 待优化张量 4.4 创建张量 预览版202112 4.5 张量的典型应用 4.6 索引与切片 4.7 维度变换 4.8 Broadcasting 4.9 数学运算 4.10 前向传播实战 4.11 参考文献 第 5 章 PyTorch 7.3 激活函数导数 7.4 损失函数梯度 7.5 全连接层梯度 预览版202112 7.6 链式法则 7.7 反向传播算法 7.8 Himmelblau 函数优化实战 7.9 反向传播算法实战 7.10 参考文献 第 8 章 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载0 码力 | 439 页 | 29.91 MB | 1 年前3 【PyTorch深度学习-龙龙老师】-测试版202112第 2 章 回归问题 2.1 神经元模型 2.2 优化方法 2.3 线性模型实战 2.4 线性回归 2.5 参考文献 第 3 章 分类问题 3.1 手写数字图片数据集 3.2 模型构建 3.3 误差计算 3.4 真的解决了吗 3.5 非线性模型 3.6 表达能力 3.7 优化方法 3.8 手写数字图片识别体验 3.9 小结 3 3.10 参考文献 第 4 章 PyTorch 基础 4.1 数据类型 4.2 数值精度 4.3 待优化张量 4.4 创建张量 预览版202112 4.5 张量的典型应用 4.6 索引与切片 4.7 维度变换 4.8 Broadcasting 4.9 数学运算 4.10 前向传播实战 4.11 参考文献 第 5 章 PyTorch 7.3 激活函数导数 7.4 损失函数梯度 7.5 全连接层梯度 预览版202112 7.6 链式法则 7.7 反向传播算法 7.8 Himmelblau 函数优化实战 7.9 反向传播算法实战 7.10 参考文献 第 8 章 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载0 码力 | 439 页 | 29.91 MB | 1 年前3
 《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别Apart,简称CAPTCHA),俗称验证码,是一种区分用户是 计算机或人的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一 个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。 由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。 一种常用的CAPTCHA测试是让用户输入一个扭曲变形的图片上所显示的文字或数字,扭 曲变形是为了避免被光学字符识别(OCR 一种更现代的CAPTCHA,其不使用扭曲的背景及 字母,而是增加一条曲线来使得图像分割 (segmentation)更困难。 另一种增加图像分割难度的方法为将符号彼此拥挤 在一起,但其也使得真人用户比较难以识别 要求用户识别图片的验证方式,本图为模拟12306 网站的验证界面 验证码(CAPTCHA)生成 https://zh.wikipedia.org/wiki/captcha 使用 Pillow(PIL Fork) 和 captcha 损失值先开始速降,后平稳多时 • 训练后期,损失值反复上下波动 优化器介绍:SGD(Stochastic Gradient Descent) 优化器介绍:SGD-M(Momentum) SGD SGD with Momentum SGD 在遇到沟壑时容易陷入震荡。为此,可以为其引入动量(Momentum),加速 SGD 在正确方向的下降并抑制震荡。 优化器介绍:Adagrad – RMSprop – Adam0 码力 | 51 页 | 2.73 MB | 1 年前3 《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别Apart,简称CAPTCHA),俗称验证码,是一种区分用户是 计算机或人的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一 个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。 由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。 一种常用的CAPTCHA测试是让用户输入一个扭曲变形的图片上所显示的文字或数字,扭 曲变形是为了避免被光学字符识别(OCR 一种更现代的CAPTCHA,其不使用扭曲的背景及 字母,而是增加一条曲线来使得图像分割 (segmentation)更困难。 另一种增加图像分割难度的方法为将符号彼此拥挤 在一起,但其也使得真人用户比较难以识别 要求用户识别图片的验证方式,本图为模拟12306 网站的验证界面 验证码(CAPTCHA)生成 https://zh.wikipedia.org/wiki/captcha 使用 Pillow(PIL Fork) 和 captcha 损失值先开始速降,后平稳多时 • 训练后期,损失值反复上下波动 优化器介绍:SGD(Stochastic Gradient Descent) 优化器介绍:SGD-M(Momentum) SGD SGD with Momentum SGD 在遇到沟壑时容易陷入震荡。为此,可以为其引入动量(Momentum),加速 SGD 在正确方向的下降并抑制震荡。 优化器介绍:Adagrad – RMSprop – Adam0 码力 | 51 页 | 2.73 MB | 1 年前3
 PyTorch OpenVINO 开发实战系列教程第一篇分为三种不同的版本分别是稳 定版本 (Stable Release)、Beta 版本、原型版本(Prototype)。 其中稳定版本长期支持维护没有明显的性能问题与缺陷,理论 上支持向后兼容的版本;Beta 版本是基于用户反馈的改动版 本,可能有 API/SDK 函数改动,性能有进一步需要提升的空间; 原型版本是新功能还不可以,需要开发不能通过 pip 方式直接 安装。 1.1.2 Pytorch 的模块与功能 数据加载类 (DataLoader)、自定义编程的可视化支持组件 tensorboard 相关类。 3)torch 开头的一些包与功能,主要包括支持模型导出功能 的 torch.onnx 模块、优化器 torch.optim 模块、支持 GPU 训 练 torch.cuda 模块,这些都是会经常用的。 4)此外本书当中还会重点关注的 torchvison 库中的一些常见 模型库与功能函数,主要包括对象检测模块与模型库、图象数 https://www.python.org/ftp/python/3.6.5/python-3.6.5- amd64.exe 2. 下载之后,双击 exe 文件安装,显示的界面如下: 图 1-1(Python3.6.5 安装界面) 注意:图 1-1 中的矩形框,必须手动选择上“add Python3.6 to PATH”之后再点击【Install Now】默认安装完成即可。 3. 安装好 Python0 码力 | 13 页 | 5.99 MB | 1 年前3 PyTorch OpenVINO 开发实战系列教程第一篇分为三种不同的版本分别是稳 定版本 (Stable Release)、Beta 版本、原型版本(Prototype)。 其中稳定版本长期支持维护没有明显的性能问题与缺陷,理论 上支持向后兼容的版本;Beta 版本是基于用户反馈的改动版 本,可能有 API/SDK 函数改动,性能有进一步需要提升的空间; 原型版本是新功能还不可以,需要开发不能通过 pip 方式直接 安装。 1.1.2 Pytorch 的模块与功能 数据加载类 (DataLoader)、自定义编程的可视化支持组件 tensorboard 相关类。 3)torch 开头的一些包与功能,主要包括支持模型导出功能 的 torch.onnx 模块、优化器 torch.optim 模块、支持 GPU 训 练 torch.cuda 模块,这些都是会经常用的。 4)此外本书当中还会重点关注的 torchvison 库中的一些常见 模型库与功能函数,主要包括对象检测模块与模型库、图象数 https://www.python.org/ftp/python/3.6.5/python-3.6.5- amd64.exe 2. 下载之后,双击 exe 文件安装,显示的界面如下: 图 1-1(Python3.6.5 安装界面) 注意:图 1-1 中的矩形框,必须手动选择上“add Python3.6 to PATH”之后再点击【Install Now】默认安装完成即可。 3. 安装好 Python0 码力 | 13 页 | 5.99 MB | 1 年前3
 超大规模深度学习在美团的应用-余建平超大规模深度学习在美团的应用 余建平 美团点评用户平台研究员 自我介绍 自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习 工程相关的工作,加入美团后,负责超大规模机器学习系统,从无到有搭建起支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。  MLX平台架构 • 模型场景应用  召回模型  排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 • 场景特点 亿级的用户,千万级的O2O商品 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX 排序模型 超大规模模型的有效性 • VC维理论  描述模型的学习能力:VC维越大模型越复杂,学习能力越强  机器学习能力 = 数据 + 特征 + 模型 • 数据  海量数据: 美团的亿级用户、千万级POI • 特征  大规模离散特征 > 小规模泛化特征 • 模型  DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构  基于Parameter0 码力 | 41 页 | 5.96 MB | 1 年前3 超大规模深度学习在美团的应用-余建平超大规模深度学习在美团的应用 余建平 美团点评用户平台研究员 自我介绍 自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习 工程相关的工作,加入美团后,负责超大规模机器学习系统,从无到有搭建起支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。  MLX平台架构 • 模型场景应用  召回模型  排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 • 场景特点 亿级的用户,千万级的O2O商品 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX 排序模型 超大规模模型的有效性 • VC维理论  描述模型的学习能力:VC维越大模型越复杂,学习能力越强  机器学习能力 = 数据 + 特征 + 模型 • 数据  海量数据: 美团的亿级用户、千万级POI • 特征  大规模离散特征 > 小规模泛化特征 • 模型  DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构  基于Parameter0 码力 | 41 页 | 5.96 MB | 1 年前3
 AI大模型千问 qwen 中文文档Generation Web UI Text Generation Web UI(简称 TGW,通常被称为“oobabooga”)是一款流行的文本生成 Web 界面工具,类似 于 AUTOMATIC1111/stable-diffusion-webui 。它拥有多个交互界面,并支持多种模型后端,包括 Transformers 、 llama.cpp(通过 llama-cpp-python 实现)、ExLlamaV2 获得更好的量化效果应用 AWQ scale,亦或是结合校准 数据使用 imatrix 工具。在这篇文档中,我们将展示最简便的模型量化方法,以及如何在对 Qwen 模型进行量 化时应用 AWQ 比例以优化其质量。 1.9.1 量化你的模型并生成 GGUF 文件 在进行量化操作之前,请确保你已经按照指导开始使用 llama.cpp。以下指引将不会提供有关安装和构建的步 骤。现在,假设你要对 Qwen1 10 vLLM 我们建议您在部署 Qwen 时尝试使用 vLLM 。它易于使用,且具有最先进的服务吞吐量、高效的注意力键值 内存管理(通过 PagedAttention 实现)、连续批处理输入请求、优化的 CUDA 内核等功能。要了解更多关于 vLLM 的信息,请参阅 论文 和 文档 。 1.10.1 安装 默认情况下,你可以通过 pip 来安装 vLLM :pip install vLLM>=00 码力 | 56 页 | 835.78 KB | 1 年前3 AI大模型千问 qwen 中文文档Generation Web UI Text Generation Web UI(简称 TGW,通常被称为“oobabooga”)是一款流行的文本生成 Web 界面工具,类似 于 AUTOMATIC1111/stable-diffusion-webui 。它拥有多个交互界面,并支持多种模型后端,包括 Transformers 、 llama.cpp(通过 llama-cpp-python 实现)、ExLlamaV2 获得更好的量化效果应用 AWQ scale,亦或是结合校准 数据使用 imatrix 工具。在这篇文档中,我们将展示最简便的模型量化方法,以及如何在对 Qwen 模型进行量 化时应用 AWQ 比例以优化其质量。 1.9.1 量化你的模型并生成 GGUF 文件 在进行量化操作之前,请确保你已经按照指导开始使用 llama.cpp。以下指引将不会提供有关安装和构建的步 骤。现在,假设你要对 Qwen1 10 vLLM 我们建议您在部署 Qwen 时尝试使用 vLLM 。它易于使用,且具有最先进的服务吞吐量、高效的注意力键值 内存管理(通过 PagedAttention 实现)、连续批处理输入请求、优化的 CUDA 内核等功能。要了解更多关于 vLLM 的信息,请参阅 论文 和 文档 。 1.10.1 安装 默认情况下,你可以通过 pip 来安装 vLLM :pip install vLLM>=00 码力 | 56 页 | 835.78 KB | 1 年前3
 Keras: 基于 Python 的深度学习库Keras 模型? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.3.6.1 保存/加载整个模型(结构 + 权重 + 优化器状态) . . . . . . . . . 28 3.3.6.2 只保存/加载模型的结构 . . . . . . . . . . . . . . . . . . . . . . . . 29 3 . . . . . . . . . . . . . . . 138 9 优化器 Optimizers 139 9.1 优化器的用法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 9.2 Keras 优化器的公共参数 . . . . . . . . . . . . . . . 允许简单而快速的原型设计(由于用户友好,高度模块化,可扩展性)。 • 同时支持卷积神经网络和循环神经网络,以及两者的组合。 • 在 CPU 和 GPU 上无缝运行。 查看文档,请访问 Keras.io。 Keras 兼容的 Python 版本: Python 2.7-3.6。 1.2 指导原则 • 用户友好。Keras 是为人类而不是为机器设计的 API。它把用户体验放在首要和中心位置。0 码力 | 257 页 | 1.19 MB | 1 年前3 Keras: 基于 Python 的深度学习库Keras 模型? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.3.6.1 保存/加载整个模型(结构 + 权重 + 优化器状态) . . . . . . . . . 28 3.3.6.2 只保存/加载模型的结构 . . . . . . . . . . . . . . . . . . . . . . . . 29 3 . . . . . . . . . . . . . . . 138 9 优化器 Optimizers 139 9.1 优化器的用法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 9.2 Keras 优化器的公共参数 . . . . . . . . . . . . . . . 允许简单而快速的原型设计(由于用户友好,高度模块化,可扩展性)。 • 同时支持卷积神经网络和循环神经网络,以及两者的组合。 • 在 CPU 和 GPU 上无缝运行。 查看文档,请访问 Keras.io。 Keras 兼容的 Python 版本: Python 2.7-3.6。 1.2 指导原则 • 用户友好。Keras 是为人类而不是为机器设计的 API。它把用户体验放在首要和中心位置。0 码力 | 257 页 | 1.19 MB | 1 年前3
 动手学深度学习 v2.02.5 定义损失函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.2.6 定义优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.2.7 训练 . . . . 定义损失函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 ii 3.3.6 定义优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 3.3.7 训练 . . . 3.7.2 重新审视Softmax的实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 3.7.3 优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 3.7.4 训练0 码力 | 797 页 | 29.45 MB | 1 年前3 动手学深度学习 v2.02.5 定义损失函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.2.6 定义优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 3.2.7 训练 . . . . 定义损失函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 ii 3.3.6 定义优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103 3.3.7 训练 . . . 3.7.2 重新审视Softmax的实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124 3.7.3 优化算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 3.7.4 训练0 码力 | 797 页 | 29.45 MB | 1 年前3
共 50 条
- 1
- 2
- 3
- 4
- 5













