并发执行 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

微博在线机器学习和深度学习实践-黄波

Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度，千亿参数 • 模型版本 • 多模型多版本：多组实验并行执行，提高实验迭代效率 • 在线版本切换：基于ZK的版本感知机制，动态进行版本切换，实现BASE模型的热更新，实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容：在线PS与离线PS模型结构兼容，自动模型参数转换冷备容灾：基于checkpoint机制(Local模式&Remote模式)，实现参数服务的高可用，支持基于模型的异构集群迁移，支持集群扩缩容 • 性能优化 • 通信优化：数据请求(PULL&PUSH)聚合，同模型多矩阵并发，锁粒度优化，性能提升5-10倍 • 缓存优化：使用堆外内存与LRU过期机制，解决GC引起的性能损耗，性能提升3-5倍 • 分区优化：支持多种分区策略（RANGE/HASH/MOD），解决数据倾 PS&MPI：DistributionStrategy API，统一分布式语义，解耦分布式架构与模型训练框架 • 使用FP16通信，使用FP32做计算，带宽压力降低一倍 • IO优化 • 多线程样本并发读取，样本读取与计算PIPELINE，实现计算与IO的overlap 4 深度学习-深度学习模型训练 • 分布式模型推理框架：WeiServing 异构CPU集群 kubernetes/ol-submit

0 码力 | 36 页 | 16.69 MB | 1 年前
3
动手学深度学习 v2.0

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 iv 5.1.3 在前向传播函数中执行代码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 5.1.4 效率 . . . . . . . . . . 讨论和回答问题。这些目标经常是相互冲突的。公式、定理和引用最好用LaTeX来管理和布局。代码最好用Python描述。网页原生是HTML和JavaScript的。此外，我们希望内容既可以作为可执行代码访问、作为纸质书访问，作为可下载的PDF访问，也可以作为网站在互联网上访问。目前还没有完全适合这些需求的工具和工作流程，所以我们不得不自行组装。我们在 16.5节中详细描述了我们的方法 13节中，我们展示了深度学习在计算机视觉中的主要应用。在 14节和 15节中，我们展示了如何预训练语言表示模型并将其应用于自然语言处理任务。 4 目录代码本书的大部分章节都以可执行代码为特色，因为我们相信交互式学习体验在深度学习中的重要性。目前，某些直觉只能通过试错、小幅调整代码并观察结果来发展。理想情况下，一个优雅的数学理论可能会精确地告诉我们如何调整代码以达到期望

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

1.1 人工智能信息技术是人类历史上的第三次工业革命，计算机、互联网、智能家居等技术的普及极大地方便了人们的日常生活。通过编程的方式，人类可以将提前设计好的交互逻辑交给机器重复且快速地执行，从而将人类从简单枯燥的重复劳动工作中解脱出来。但是对于需要较高智能水平的任务，如人脸识别、聊天机器人、自动驾驶等任务，很难设计明确的逻辑规则，传统的编程方式显得力不从心，而人工智能(Artificial 安装 Python 解释器是让以 Python 语言编写的代码能够被 CPU 执行的桥梁，是 Python 语言的核心软件。用户可以从 https://www.python.org/网站下载最新版本(Python 3.7)的解释器，像普通的应用软件一样安装完成后，就可以调用 python.exe 程序执行 Python 语言编写的源代码文件(.py 格式)。这里选择安装集成了 Python install pytorch torchvision cudatoolkit=10.1 -c pytorch 上述命令自动下载 PyTorch GPU 版本并安装，目前是 PyTorch 1.5 版本。执行上述命令后，系统会询问是否继续，输入 y 并回车即可进入下载和安装流程，如图 1.31 所示。由于国内下载速度较慢，可能需要良好的上网环境来避免下载中断、安装失败的情况。图 1.31

0 码力 | 439 页 | 29.91 MB | 1 年前
3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒

索 l处理数万到数十万路，城市范围级别监控、门禁摄像头数据 l10-100 Billion级别深度学习特征检索 - PB以上级别数据库存储 - 100PB级别抓拍图片存储 - 每秒万次并发检索请求 l大规模推广应用 l某种程度上说，城市内所有市民都是系统的用户深度学习算法发展为平台系统赋能首次超过人眼 2014 2015 98.52% 97.35% 97.45% 人眼 CPU manager Device plugin 1.9 volume-awared scheduling Go语言在高性能系统中的实践经验 • 为什么用Go - 比起C++，更易于实践各种并发模式 - 比起Java，更加简洁，更易于与C/C++交互 - 比起脚本语言，类型和内存安全，保证重构效率与产品质量 - 完善的配套工具，如go test, gofmt, go lint, race-detector

0 码力 | 23 页 | 9.26 MB | 1 年前
3
PyTorch OpenVINO 开发实战系列教程第一篇

或外部命令，也不是可运行的程序”则说明第二步中没有勾选上“add Python3.6 to PATH”，此时请手动把 python.exe 所在路径添加到 Windows 系统的环境变量中去之后再次执行即可。 4. 安装好 Python 语言包支持之后，只要运行下面的命令行即可完成 Pytorch 框架的安装，GPU 支持版本的命令行如下（需要 GPU 显卡支持）： pip install + OpenVINO 开发实战系列教程第一篇 4 5. 在执行第三步的基础上，在命令行中输入下面两行代码，执行结果如下： >>> import torch >>> torch._ _version_ _ '1.9.0+cu102' 其中第一行表示导入 pytorch 的包支持，第二行表示版本查询，第三行是执行结果（GPU 版本）。现在很多开发者喜欢使用 Ubuntu 开发系统，在开发系统，在 Ubuntu 系统下如下正确安装与配置 Pytorch，第一步同样是安装 python 语言依赖包 Python3.6，主要是执行一系列的安装命令行，具体步骤如下： 1. 导入第三方软件仓库 sudo add-apt-repository ppa:jonathonf/python-3.6 2. 更新与安装 python3.6 sudo apt-get update

0 码力 | 13 页 | 5.99 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

Word2Vec 训练流程训练步骤到此结束。我们从这一步骤中得到稍微好一点的嵌入（`not` ，`thou`，`aaron`和`taco`）。我们现在进行下一步（下一个正样本及其相关的负样本）,并再次执行相同的过程。当我们循环遍历整个数据集多次时，嵌入继续得到改进。然后我们可以停止训练过程，丢弃`Context`矩阵，并使用`Embeddings`矩阵作为下一个任务的预训练嵌入。 27 4 Transformer）于2018年6月由OpenAI首次提出。GPT模型考虑到在自然语言理解中有大量不同的任务，尽管大量的未标记文本语料库非常丰富，但用于学习这些特定任务的标记数据却很少，这使得经过区分训练的模型很难充分执行。同时，大多数深度学习方法需要大量手动标记的数据，这限制了它们在许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下，GPT论文中证明，通过对未标记文本的不同语料库进行语言模型的生成性预训练，然后对每个特定任务多任务模型的特点：跟传统ML需要专门的标注数据集不同（从而训练出专业AI），多任务模型不采用专门AI手段，而是在海量数据喂养训练的基础上，适配任何任务形式。 ✓ 转向更通用的系统，使其可以执行许多任务，最终无需为每个任务手动创建和标记训练数据集。 ✓ 机器学习系统通过使用大型数据集、高容量模型和监督学习的组合，在训练任务方面表现出色，然而这些系统较为脆弱，对

0 码力 | 44 页 | 2.36 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

数据读写需要加锁 � ⽀持多模型和模型多版本困难 >15亿key/秒近千台只读版本写版本 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台内存型服务并发查询优化数⼗台⽹络型服务 TB级模型实时上线 � 问题：TB模型实时多地传输和加载成本⾼ � ⽅案：⾼低频分别上线 � 更灵活的⽤法：模型多切⽚，按需上线 � Dssm � wdl

0 码力 | 22 页 | 6.76 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

返回一个编译好的模型 # 与之前那个相同 model = load_model('my_model.h5') 3.3.6.2 只保存/加载模型的结构如果您只需要保存模型的结构，而非其权重或训练配置项，则可以执行以下操作： # 保存为 JSON json_string = model.to_json() # 保存为 YAML yaml_string = model.to_yaml() 生成的 JSON/YAML 要为多输出模型的不同输出指定不同的评估标准，还可以传递一个字典，如 metrics = {'output_a'：'accuracy'}。 • sample_weight_mode: 如果你需要执行按时间步采样权重（2D 权重），请将其设置为 temporal。默认为 None，为采样权重（1D）。如果模型有多个输出，则可以通过传递 mode 的字典或列表，以在每个输出上使用不同的 sample_weight_mode。系数加权的加权总和误差。如果是列表，那么它应该是与模型输出相对应的 1：1 映射。如果是张量，那么应该把输出的名称（字符串）映到标量系数。 • sample_weight_mode: 如果你需要执行按时间步采样权重（2D 权重），请将其设置为 temporal。默认为 None，为采样权重（1D）。如果模型有多个输出，则可以通过传递 mode 的字典或列表，以在每个输出上使用不同的 sample_weight_mode。

0 码力 | 257 页 | 1.19 MB | 1 年前
3
《TensorFlow 2项目进阶实战》3-方案设计篇：如何设计可落地的AI解决方案

�� 行业现状线下销售执行：门店拍照 + 稽核抽查 + 正负反馈稽核结果： •货架缺货 •新品未上架 •必分销未上架 •陈列审核不通过客户现状与问题分析现状缺点： •抽查比例低 •覆盖门店少 •人工费用高 •全局把握难 300万/月抽查：5000张/月客户需求：全国门店/货架智能看板 • 区域/门店达标率 • 货架可见度 • 货架占有率 • 新品上市/上架率 • 陈列达标率 • 产品价格指数 • 促销执行统计客户需求：棚格图推荐设计与销量预测如何落地项目第一期？短期目标：自动化陈列审核和促销管理业务落地基础：货架数字化 SKU 种类数量位置品类占比货架设计业务落地：自动化陈列审核和促销管理陈列必分销新品纯度排面 SKU 种类数量位置品类占比货架设计场景层数编号销售执行三板斧：分销达标销售执行三板斧：新品上架陈列稽查销售执行三板斧：陈列激励方案设计：基于深度学习的检测/分类的AI流水线货架商品检测货架商品检测 Bottle（瓶装） Combination（组合装）货架商品检测

0 码力 | 49 页 | 12.50 MB | 1 年前
3
AI大模型千问 qwen 中文文档

textgen python=3.11 conda activate textgen pip install torch torchvision torchaudio 接下来，您可以根据您的操作系统执行 pip install -r 命令来安装相应的依赖项，例如， pip install -r requirements_apple_silicon.txt 对于 requirements 中的 bitsandbytes �→awq.gguf 通过这种方式，您可以在 GGUF 格式的量化模型中应用 AWQ scales，这有助于提升模型的质量。我们通常将 fp16 模型量化为 2、3、4、5、6 和 8 位模型。要执行不同低比特的量化，只需在命令中替换量化方法即可。例如，如果你想将你的模型量化为 2 位模型，你可以按照下面所示，将 q4_0 替换为 q2_k ： ./quantize models/7B/qwen1_5-7b-chat-fp16 SkyPilot 1.11.1 SkyPilot 是什么 SkyPilot 是一个可以在任何云上运行 LLM、AI 应用以及批量任务的框架，旨在实现最大程度的成本节省、最高的 GPU 可用性以及受管理的执行过程。其特性包括： • 通过跨区域和跨云充分利用多个资源池，以获得最佳的 GPU 可用性。 • 把费用降到最低——SkyPilot 在各区域和云平台中为您挑选最便宜的资源。无需任何托管解决方案的

0 码力 | 56 页 | 835.78 KB | 1 年前
3

共 17 条前往

页

分类

语言

格式