动手学深度学习 v2.0内存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517 12.4.3 存储器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518 12.4.4 CPU 多机训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 12.7.4 键值存储 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 13 计算机视觉 549 图1 中用不同的颜色呈现: 目录 3 图1: 全书结构 • 第一部分包括基础知识和预备知识。1节 提供深度学习的入门课程。然后在 2节 中,我们将快速介绍实 践深度学习所需的前提条件,例如如何存储和处理数据,以及如何应用基于线性代数、微积分和概率基 本概念的各种数值运算。3节 和 4节 涵盖了深度学习的最基本概念和技术,例如线性回归、多层感知机 和正则化。 • 接下来的五章集中讨论现代深度学习技术。5节0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112据。以手写的数 字图片识别为例,如图 3.1 所示,需要收集较多的由真人书写的 0~9 的数字图片,为了便 于存储和计算,通常把收集的原始图片缩放到某个固定的大小(Size 或 Shape),比如 224 个 像素的行和 224 个像素的列(224 × 224),或者 96 个像素的行和 96 个像素的列(96 × 96), 图片样本将作为输入数据 x。同时,还需要给每一张图片标注一个标签(Label)信息,它将 格、粗细等丰富的样式,使得数据集的分布与真实的手写数字图片的分布尽可能地接近, 从而保证了模型的泛化能力。 图 3.2 MNIST 数据集样例图片 现在来讨论图片的表示方法。一张图片包含了ℎ行(Height/Row),?列(Width/Column), 每个位置保存了像素(Pixel)值,像素值一般使用 0~255 的整形数值来表达颜色强度信息, 例如 0 表示强度最低,255 表示强度 1]形状的张量)。图 3.3 演示 了内容为 8 的数字图片的矩阵内容,可以看到,图片中黑色的像素用 0 表示,灰度信息用 0~255 表示,图片中越白的像素点,对应矩阵位置中数值也就越大。 28行28列 图 3.3 图片的表示示意图① ① 素材来自 https://towardsdatascience.com/how-to-teach-a-computer-to-see-wi0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言2016年 C轮融资 估值20亿美元 9 机器学习的范围 10 • 给定数据的预测问题 ✓ 数据清洗/特征选择 ✓ 确定算法模型/参数优化 ✓ 结果预测 • 不能解决什么 ✓ 大数据存储/并行计算 ✓ 做一个机器人 机器学习可以解决什么问题 11 机器学习发展史 总的来说,人工智能经历了逻辑推理、知识工程、机器 学习三个阶段。 机器学习伴随着人工智能的发展而诞生,它是人工智能 行列式的某一行(列)的所有的元素都乘以 同一数?,等于用数?乘此行列式。 ⚫ ? ∈ ℝ?×?, det(?) = det(?T). ⚫ ?, ? ∈ ℝ?×?, det(??) = det(?)det(?) ⚫ 当且仅当?为奇异方阵时,det(?) = 0 ⚫ 当?为非奇异方阵时,det(?−1) = 1/det(?) 39 线性代数-矩阵 矩阵:? × ?个数???排成?行?列的表格 为正交阵,数学描述为?T? = ? = ??T。 正定性 对于 ? ∈ ℝ?×?, ∀? ∈ ℝ?×1,满足 ?T?? > 0, A为正定矩阵; ?T?? ≥ 0,?为半正定矩阵。 42 线性代数 行列式按行(列)展开定理 (1) 设? = ??? ?×?,则:??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 或?1??1? + ?2??2? + ⋯0 码力 | 78 页 | 3.69 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言行列式的某一行(列)的所有的元素都乘以 同一数?,等于用数?乘此行列式。 ⚫ ? ∈ ℝ?×?, det(?) = det(?T). ⚫ ?, ? ∈ ℝ?×?, det(??) = det(?)det(?) ⚫ 当且仅当?为奇异方阵时,det(?) = 0 ⚫ 当?为非奇异方阵时,det(?−1) = 1/det(?) 40 线性代数-矩阵 矩阵:? × ?个数???排成?行?列的表格 为正交阵,数学描述为?T? = ? = ??T。 正定性 对于 ? ∈ ℝ?×?, ∀? ∈ ℝ?×1,满足 ?T?? > 0, A为正定矩阵; ?T?? ≥ 0,?为半正定矩阵。 43 线性代数 行列式按行(列)展开定理 (1) 设? = ??? ?×?,则:??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 或?1??1? + ?2??2? + ⋯ Python 的环境的安装 55 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 56 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器,列表用[ ]来表示,其中元素的类型可不相同。 ⚫元组(tuple) 元组类似列表,元组里面的元素也是进行索引计算。列表里面的元素的值可以修改,而元组 里面的元素的值不能修改,只能读取。元组的符号是(0 码力 | 80 页 | 5.38 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标:� TensorFlow on Yarn设计 • 支持GPU亲和性调度(提⾼通信效率)� 启动Tensorboard服务:� TensorFlow on Yarn技术细节揭秘 降低已有tensorflow程序迁移成本:� (1)单机模式 不需要修改代码 (2)分布式模式(最多修改三行代码) cluster = !.train.ClusterSpec(json.loads(os.environ[“TF_CLUSTER_DEF”])) job_name = os.environ[“TF_ROLE”] 通过RDD读取训练样本数据,关心 文件存储格式 直接读取HDFS数据,不关心文件存 储格式 Worker和PS的资源同构 Worker和PS可以各自配置资源 不支持GPU调度 支持GPU调度 迁移成本较高 迁移成本低 嵌入到Spark计算框架里,方便打通 数据流 实现了一种新的Yarn Applica\on,可 以与TensorFlow灵活整合和功能定制 代码量几百行 代码量几千行 About0 码力 | 32 页 | 4.06 MB | 1 年前3
Keras: 基于 Python 的深度学习库y_train, epochs=5, batch_size=32) 或者,你可以手动地将批次的数据提供给模型: model.train_on_batch(x_batch, y_batch) 只需一行代码就能评估模型性能: loss_and_metrics = model.evaluate(x_test, y_test, batch_size=128) 或者对新的数据生成预测: classes Input(shape=(784,)) # 这是可行的,并且返回上面定义的 10-way softmax。 y = model(x) 快速开始 18 这种方式能允许我们快速创建可以处理序列输入的模型。只需一行代码,你就将图像分类 模型转换为视频分类模型。 from keras.layers import TimeDistributed # 输入张量是 20 个时间步的序列,每一个时间为一个 784 维的向量 上的一条新闻标题有多少转发和点赞数。模型的 主要输入将是新闻标题本身,即一系列词语,但是为了增添趣味,我们的模型还添加了其他的 辅助输入来接收额外的数据,例如新闻标题的发布的时间等。该模型也将通过两个损失函数进 行监督学习。较早地在模型中使用主损失函数,是深度学习模型的一个良好正则方法。 模型结构如下图所示: 让我们用函数式 API 来实现它。 主要输入接收新闻标题本身,即一个整数序列(每个整数编码一个词)。这些整数在0 码力 | 257 页 | 1.19 MB | 1 年前3
AI大模型千问 qwen 中文文档device_map="auto", attn_implementation="flash_attention_2", ) 为了解决下载问题,我们建议您尝试从 ModelScope 进行下载,只需将上述代码的第一行更改为以下内容: from modelscope import AutoModelForCausalLM, AutoTokenizer 借助 TextStreamer ,chat 的流式模式变得非 max_new_tokens=512, streamer=streamer, ) 除了使用 TextStreamer 之外,我们还可以使用 TextIteratorStreamer ,它将可打印的文本存储在一 个队列中,以便下游应用程序作为迭代器来使用: # Repeat the code above before model.generate() # Starting here, we add streamer you are."}, {"role": "assistant", "content": "I am a large language model named Qwen..."} ] 然后只需通过一行代码运行校准过程: model.quantize(tokenizer, quant_config=quant_config, calib_data=data) 最后,保存量化模型: 14 Chapter0 码力 | 56 页 | 835.78 KB | 1 年前3
微博在线机器学习和深度学习实践-黄波练周期模型融合 • 模型结构训练与推理兼容:在线PS与离线PS模型结构兼容,自动模型参数转换 • 稳定性优化 • 模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片存储 • 冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(P 引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(ByRow&ByKey),基于row进行矩阵压缩存储,参数内存占用减少90% 3 在线机器学习-参数服务器 模型验证 离线训练 实时训练 模型训练 模型部署 在线服务 离线验证 在线发布 在线验证 在线一致性/ DSSM/FM/FF M生成博主与物 料向量,采用 向量进行召回 特征向量化:Item2vec 向量索引:FM/FFM/ DSSM 模型召回:DIN/DIEN/TDM 模型召回 融入用户近期互动行 为的深度模型召回 单目标:LR->W&D->FM->DeepFM 多目标:点击FM+互动FM 排序损失:DeepFM+Pair-Wise Rank Loss 多目标 融合点击模型和 互动模型0 码力 | 36 页 | 16.69 MB | 1 年前3
超大规模深度学习在美团的应用-余建平模型可变计算路径 运行阶段 计算图裁剪 模型训练框架 • 应用场景——离线预计算 模型召回,ANN检索 粗排模型,降低线上计算量 • 分布式Sharding 模型分片存储,支持超大规模模型 数据并行计算,加速Optimizer计算 • 低频特征过滤 Counting Bloom Filter 概率方式 • 模型数据通路 Base + Delta方式 PS的参数放置策略 • Ps分布式分片的均衡,避免分片大小不一致 NN网络矩阵按行切分,解决请求包不均衡问题 特征按照Hash方式分布式存储 • 模型并行调超参 grid search random search PS的多模型训练 • 提高内存使用效率 model group内共享特征key的存储 • 超大规模模型 -> 高扇出的分布式PS • 长尾效应:单个分片的抖动(网络、CPU)对请求影响变大 N PS Req … … reply 1 reply 2 reply N … 超过t Backup Request Cancel Request 流式模型的通路 • 持久化存储 本地disk存储,持久化对齐kafka的数据 • PS快速failover Compaction机制,降低load数据量 • Online Learning对数据流的要求 不重不丢:重复的数据会使模型有偏,数据的缺失0 码力 | 41 页 | 5.96 MB | 1 年前3
机器学习课程-温州大学-11机器学习-降维下图所示的S曲线(不同颜色的图像表示不同类别的数据),t-SNE表现更好 。因为t-SNE主要是关注数据的局部结构。 11 1.降维概述 降维的优缺点 降维的优点: • 通过减少特征的维数,数据集存储所需的空间也相应减少,减少了特征维数所需的计算 训练时间; • 数据集特征的降维有助于快速可视化数据; • 通过处理多重共线性消除冗余特征。 降维的缺点: • 由于降维可能会丢失一些数据; (2) 基于特征值分解协方差矩阵实现PCA算法 39 (1)基于SVD分解协方差矩阵实现PCA算法 3.PCA(主成分分析) PCA 减少?维到?维: 设有?条?维数据,将原始数据按列组成?行?列矩阵? 第一步是均值归一化。我们需要计算出所有特征的均值,然后令 ?? = ?? − ??。(??为均值)。如 果特征是在不同的数量级上,我们还需要将其除以标准差 ?2。 第二步是计算协方差矩阵(covariance 则是一个对角阵,对角线上的元素就是特征值。 备注:对于正交矩阵?,有?−1= ?T 43 (2) 基于特征值分解协方差矩阵实现PCA算法 3.PCA(主成分分析) 设有?条?维数据,将原始数据按列组成?行?列矩阵? 1)均值归一化。我们需要计算出所有特征的均值,然后令 ?? = ?? − ??。(??为均值)。 如果特征是在不同的数量级上,我们还需要将其除以标准差 ?2。 2)计算协方差矩阵?。0 码力 | 51 页 | 3.14 MB | 1 年前3
共 46 条
- 1
- 2
- 3
- 4
- 5













