行存储 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

内存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517 12.4.3 存储器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518 12.4.4 CPU 多机训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 12.7.4 键值存储 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 13 计算机视觉 549 图1 中用不同的颜色呈现：目录 3 图1: 全书结构 • 第一部分包括基础知识和预备知识。1节提供深度学习的入门课程。然后在 2节中，我们将快速介绍实践深度学习所需的前提条件，例如如何存储和处理数据，以及如何应用基于线性代数、微积分和概率基本概念的各种数值运算。3节和 4节涵盖了深度学习的最基本概念和技术，例如线性回归、多层感知机和正则化。 • 接下来的五章集中讨论现代深度学习技术。5节

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

据。以手写的数字图片识别为例，如图 3.1 所示，需要收集较多的由真人书写的 0~9 的数字图片，为了便于存储和计算，通常把收集的原始图片缩放到某个固定的大小(Size 或 Shape)，比如 224 个像素的行和 224 个像素的列(224 × 224)，或者 96 个像素的行和 96 个像素的列(96 × 96)，图片样本将作为输入数据 x。同时，还需要给每一张图片标注一个标签(Label)信息，它将格、粗细等丰富的样式，使得数据集的分布与真实的手写数字图片的分布尽可能地接近，从而保证了模型的泛化能力。图 3.2 MNIST 数据集样例图片现在来讨论图片的表示方法。一张图片包含了ℎ行(Height/Row)，?列(Width/Column)，每个位置保存了像素(Pixel)值，像素值一般使用 0~255 的整形数值来表达颜色强度信息，例如 0 表示强度最低，255 表示强度 1]形状的张量)。图 3.3 演示了内容为 8 的数字图片的矩阵内容，可以看到，图片中黑色的像素用 0 表示，灰度信息用 0~255 表示，图片中越白的像素点，对应矩阵位置中数值也就越大。 28行28列图 3.3 图片的表示示意图① ① 素材来自 https://towardsdatascience.com/how-to-teach-a-computer-to-see-wi

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-01机器学习-引言

2016年 C轮融资估值20亿美元 9 机器学习的范围 10 • 给定数据的预测问题 ✓ 数据清洗/特征选择 ✓ 确定算法模型/参数优化 ✓ 结果预测 • 不能解决什么 ✓ 大数据存储/并行计算 ✓ 做一个机器人机器学习可以解决什么问题 11 机器学习发展史总的来说，人工智能经历了逻辑推理、知识工程、机器学习三个阶段。机器学习伴随着人工智能的发展而诞生，它是人工智能行列式的某一行（列）的所有的元素都乘以同一数?，等于用数?乘此行列式。 ⚫ ? ∈ ℝ?×?, det(?) = det(?T). ⚫ ?, ? ∈ ℝ?×?, det(??) = det(?)det(?) ⚫ 当且仅当?为奇异方阵时，det(?) = 0 ⚫ 当?为非奇异方阵时，det(?−1) = 1/det(?) 39 线性代数-矩阵矩阵：? × ?个数???排成?行?列的表格为正交阵，数学描述为?T? = ? = ??T。正定性对于 ? ∈ ℝ?×?, ∀? ∈ ℝ?×1，满足 ?T?? > 0, A为正定矩阵; ?T?? ≥ 0，?为半正定矩阵。 42 线性代数行列式按行（列）展开定理 (1) 设? = ??? ?×?，则：??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 或?1??1? + ?2??2? + ⋯

0 码力 | 78 页 | 3.69 MB | 1 年前
3
机器学习课程-温州大学-01深度学习-引言

行列式的某一行（列）的所有的元素都乘以同一数?，等于用数?乘此行列式。 ⚫ ? ∈ ℝ?×?, det(?) = det(?T). ⚫ ?, ? ∈ ℝ?×?, det(??) = det(?)det(?) ⚫ 当且仅当?为奇异方阵时，det(?) = 0 ⚫ 当?为非奇异方阵时，det(?−1) = 1/det(?) 40 线性代数-矩阵矩阵：? × ?个数???排成?行?列的表格为正交阵，数学描述为?T? = ? = ??T。正定性对于 ? ∈ ℝ?×?, ∀? ∈ ℝ?×1，满足 ?T?? > 0, A为正定矩阵; ?T?? ≥ 0，?为半正定矩阵。 43 线性代数行列式按行（列）展开定理 (1) 设? = ??? ?×?，则：??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 或?1??1? + ?2??2? + ⋯ Python 的环境的安装 55 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 56 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器，列表用[ ]来表示，其中元素的类型可不相同。 ⚫元组(tuple) 元组类似列表，元组里面的元素也是进行索引计算。列表里面的元素的值可以修改，而元组里面的元素的值不能修改，只能读取。元组的符号是(

0 码力 | 80 页 | 5.38 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息，仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标：� TensorFlow on Yarn设计 • 支持GPU亲和性调度（提⾼通信效率）� 启动Tensorboard服务：� TensorFlow on Yarn技术细节揭秘降低已有tensorflow程序迁移成本：� （1）单机模式不需要修改代码（2）分布式模式（最多修改三行代码） cluster = !.train.ClusterSpec(json.loads(os.environ[“TF_CLUSTER_DEF”])) job_name = os.environ[“TF_ROLE”] 通过RDD读取训练样本数据，关心文件存储格式直接读取HDFS数据，不关心文件存储格式 Worker和PS的资源同构 Worker和PS可以各自配置资源不支持GPU调度支持GPU调度迁移成本较高迁移成本低嵌入到Spark计算框架里，方便打通数据流实现了一种新的Yarn Applica\on，可以与TensorFlow灵活整合和功能定制代码量几百行代码量几千行 About

0 码力 | 32 页 | 4.06 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

y_train, epochs=5, batch_size=32) 或者，你可以手动地将批次的数据提供给模型： model.train_on_batch(x_batch, y_batch) 只需一行代码就能评估模型性能： loss_and_metrics = model.evaluate(x_test, y_test, batch_size=128) 或者对新的数据生成预测： classes Input(shape=(784,)) # 这是可行的，并且返回上面定义的 10-way softmax。 y = model(x) 快速开始 18 这种方式能允许我们快速创建可以处理序列输入的模型。只需一行代码，你就将图像分类模型转换为视频分类模型。 from keras.layers import TimeDistributed # 输入张量是 20 个时间步的序列，每一个时间为一个 784 维的向量上的一条新闻标题有多少转发和点赞数。模型的主要输入将是新闻标题本身，即一系列词语，但是为了增添趣味，我们的模型还添加了其他的辅助输入来接收额外的数据，例如新闻标题的发布的时间等。该模型也将通过两个损失函数进行监督学习。较早地在模型中使用主损失函数，是深度学习模型的一个良好正则方法。模型结构如下图所示：让我们用函数式 API 来实现它。主要输入接收新闻标题本身，即一个整数序列（每个整数编码一个词）。这些整数在

0 码力 | 257 页 | 1.19 MB | 1 年前
3
AI大模型千问 qwen 中文文档

device_map="auto", attn_implementation="flash_attention_2", ) 为了解决下载问题，我们建议您尝试从 ModelScope 进行下载，只需将上述代码的第一行更改为以下内容： from modelscope import AutoModelForCausalLM, AutoTokenizer 借助 TextStreamer ，chat 的流式模式变得非 max_new_tokens=512, streamer=streamer, ) 除了使用 TextStreamer 之外，我们还可以使用 TextIteratorStreamer ，它将可打印的文本存储在一个队列中，以便下游应用程序作为迭代器来使用： # Repeat the code above before model.generate() # Starting here, we add streamer you are."}, {"role": "assistant", "content": "I am a large language model named Qwen..."} ] 然后只需通过一行代码运行校准过程： model.quantize(tokenizer, quant_config=quant_config, calib_data=data) 最后，保存量化模型： 14 Chapter

0 码力 | 56 页 | 835.78 KB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

练周期模型融合 • 模型结构训练与推理兼容：在线PS与离线PS模型结构兼容，自动模型参数转换 • 稳定性优化 • 模型快照：基于ps-scheduler的周期模型版本探测与保存，模型稀疏化分片存储 • 冷备容灾：基于checkpoint机制(Local模式&Remote模式)，实现参数服务的高可用，支持基于模型的异构集群迁移，支持集群扩缩容 • 性能优化 • 通信优化：数据请求(P 引起的性能损耗，性能提升3-5倍 • 分区优化：支持多种分区策略（RANGE/HASH/MOD），解决数据倾斜导致的流量热点瓶颈问题，性能提升2-5倍 • 存储优化：自定义存储方式(ByRow&ByKey)，基于row进行矩阵压缩存储，参数内存占用减少90% 3 在线机器学习-参数服务器模型验证离线训练实时训练模型训练模型部署在线服务离线验证在线发布在线验证在线一致性/ DSSM/FM/FF M生成博主与物料向量，采用向量进行召回特征向量化：Item2vec 向量索引：FM/FFM/ DSSM 模型召回：DIN/DIEN/TDM 模型召回融入用户近期互动行为的深度模型召回单目标：LR->W&D->FM->DeepFM 多目标：点击FM+互动FM 排序损失：DeepFM+Pair-Wise Rank Loss 多目标融合点击模型和互动模型

0 码力 | 36 页 | 16.69 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

模型可变计算路径  运行阶段  计算图裁剪模型训练框架 • 应用场景——离线预计算  模型召回，ANN检索  粗排模型，降低线上计算量 • 分布式Sharding  模型分片存储，支持超大规模模型  数据并行计算，加速Optimizer计算 • 低频特征过滤  Counting Bloom Filter  概率方式 • 模型数据通路  Base + Delta方式 PS的参数放置策略 • Ps分布式分片的均衡，避免分片大小不一致  NN网络矩阵按行切分，解决请求包不均衡问题  特征按照Hash方式分布式存储 • 模型并行调超参  grid search  random search PS的多模型训练 • 提高内存使用效率  model group内共享特征key的存储 • 超大规模模型 -> 高扇出的分布式PS • 长尾效应：单个分片的抖动（网络、CPU）对请求影响变大 N PS Req … … reply 1 reply 2 reply N … 超过t Backup Request Cancel Request 流式模型的通路 • 持久化存储  本地disk存储，持久化对齐kafka的数据 • PS快速failover  Compaction机制，降低load数据量 • Online Learning对数据流的要求  不重不丢：重复的数据会使模型有偏，数据的缺失

0 码力 | 41 页 | 5.96 MB | 1 年前
3
机器学习课程-温州大学-11机器学习-降维

下图所示的S曲线（不同颜色的图像表示不同类别的数据），t-SNE表现更好。因为t-SNE主要是关注数据的局部结构。 11 1.降维概述降维的优缺点降维的优点： • 通过减少特征的维数，数据集存储所需的空间也相应减少，减少了特征维数所需的计算训练时间； • 数据集特征的降维有助于快速可视化数据； • 通过处理多重共线性消除冗余特征。降维的缺点： • 由于降维可能会丢失一些数据； (2) 基于特征值分解协方差矩阵实现PCA算法 39 (1)基于SVD分解协方差矩阵实现PCA算法 3.PCA(主成分分析) PCA 减少?维到?维：设有?条?维数据，将原始数据按列组成?行?列矩阵? 第一步是均值归一化。我们需要计算出所有特征的均值，然后令 ?? = ?? − ??。（??为均值）。如果特征是在不同的数量级上，我们还需要将其除以标准差 ?2。第二步是计算协方差矩阵（covariance 则是一个对角阵，对角线上的元素就是特征值。备注：对于正交矩阵?，有?−1= ?T 43 (2) 基于特征值分解协方差矩阵实现PCA算法 3.PCA(主成分分析) 设有?条?维数据，将原始数据按列组成?行?列矩阵? 1）均值归一化。我们需要计算出所有特征的均值，然后令 ?? = ?? − ??。（??为均值）。如果特征是在不同的数量级上，我们还需要将其除以标准差 ?2。 2）计算协方差矩阵?。

0 码力 | 51 页 | 3.14 MB | 1 年前
3

共 46 条前往

页

分类

语言

格式