微博在线机器学习和深度学习实践-黄波Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度,千亿参数 • 模型版本 • 多模型多版本:多组实验并行执行,提高实验迭代效率 • 在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE模型的热更新,实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容:在线PS与离线PS模型结构兼容,自动模型参数转换 冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾 PS&MPI:DistributionStrategy API,统一分布式语义,解耦分布式架构与模型训练框架 • 使用FP16通信,使用FP32做计算,带宽压力降低一倍 • IO优化 • 多线程样本并发读取,样本读取与计算PIPELINE,实现计算与IO的overlap 4 深度学习-深度学习模型训练 • 分布式模型推理框架:WeiServing 异构CPU集群 kubernetes/ol-submit0 码力 | 36 页 | 16.69 MB | 1 年前3
动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 iv 5.1.3 在前向传播函数中执行代码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 5.1.4 效率 . . . . . . . . . . 讨论和回答问题。 这些目标经常是相互冲突的。公式、定理和引用最好用LaTeX来管理和布局。代码最好用Python描述。网页 原生是HTML和JavaScript的。此外,我们希望内容既可以作为可执行代码访问、作为纸质书访问,作为可下 载的PDF访问,也可以作为网站在互联网上访问。目前还没有完全适合这些需求的工具和工作流程,所以我 们不得不自行组装。我们在 16.5节 中详细描述了我们的方法 13节 中,我们展 示了深度学习在计算机视觉中的主要应用。在 14节 和 15节 中,我们展示了如何预训练语言表示模型并 将其应用于自然语言处理任务。 4 目录 代码 本书的大部分章节都以可执行代码为特色,因为我们相信交互式学习体验在深度学习中的重要性。目前,某 些直觉只能通过试错、小幅调整代码并观察结果来发展。理想情况下,一个优雅的数学理论可能会精确地告 诉我们如何调整代码以达到期望0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版2021121.1 人工智能 信息技术是人类历史上的第三次工业革命,计算机、互联网、智能家居等技术的普及 极大地方便了人们的日常生活。通过编程的方式,人类可以将提前设计好的交互逻辑交给 机器重复且快速地执行,从而将人类从简单枯燥的重复劳动工作中解脱出来。但是对于需 要较高智能水平的任务,如人脸识别、聊天机器人、自动驾驶等任务,很难设计明确的逻 辑规则,传统的编程方式显得力不从心,而人工智能(Artificial 安装 Python 解释器是让以 Python 语言编写的代码能够被 CPU 执行的桥梁,是 Python 语言 的核心软件。用户可以从 https://www.python.org/网站下载最新版本(Python 3.7)的解释器, 像普通的应用软件一样安装完成后,就可以调用 python.exe 程序执行 Python 语言编写的源 代码文件(.py 格式)。 这里选择安装集成了 Python install pytorch torchvision cudatoolkit=10.1 -c pytorch 上述命令自动下载 PyTorch GPU 版本并安装,目前是 PyTorch 1.5 版本。执行上述命令后, 系统会询问是否继续,输入 y 并回车即可进入下载和安装流程,如图 1.31 所示。由于国内 下载速度较慢,可能需要良好的上网环境来避免下载中断、安装失败的情况。 图 1.310 码力 | 439 页 | 29.91 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒索 l处理数万到数十万路,城市范围级别监控、门禁摄 像头数据 l10-100 Billion级别深度学习特征检索 - PB以上级别数据库存储 - 100PB级别抓拍图片存储 - 每秒万次并发检索请求 l大规模推广应用 l某种程度上说,城市内所有市民都是系统的用户 深度学习算法发展为平台系统赋能 首次超过人眼 2014 2015 98.52% 97.35% 97.45% 人眼 CPU manager Device plugin 1.9 volume-awared scheduling Go语言在高性能系统中的实践经验 • 为什么用Go - 比起C++,更易于实践各种并发模式 - 比起Java,更加简洁,更易于与C/C++交互 - 比起脚本语言,类型和内存安全,保证重构效率与产品质量 - 完善的配套工具,如go test, gofmt, go lint, race-detector0 码力 | 23 页 | 9.26 MB | 1 年前3
PyTorch OpenVINO 开发实战系列教程第一篇或外部命令,也不是可运行的程序”则说明第二步中没有勾选 上“add Python3.6 to PATH”,此时请手动把 python.exe 所 在路径添加到 Windows 系统的环境变量中去之后再次执行 即可。 4. 安装好 Python 语言包支持之后,只要运行下面的命令行即 可完成 Pytorch 框架的安装,GPU 支持版本的命令行如下(需 要 GPU 显卡支持): pip install + OpenVINO 开发实战系列教程 第一篇 4 5. 在执行第三步的基础上,在命令行中输入下面两行代码,执 行结果如下: >>> import torch >>> torch._ _version_ _ '1.9.0+cu102' 其中第一行表示导入 pytorch 的包支持,第二行表示版本查询, 第三行是执行结果(GPU 版本)。 现在很多开发者喜欢使用 Ubuntu 开发系统,在 开发系统,在 Ubuntu 系统 下如下正确安装与配置 Pytorch,第一步同样是安装 python 语言依赖包 Python3.6,主要是执行一系列的安装命令行,具 体步骤如下: 1. 导入第三方软件仓库 sudo add-apt-repository ppa:jonathonf/python-3.6 2. 更新与安装 python3.6 sudo apt-get update0 码力 | 13 页 | 5.99 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入Word2Vec 训练流程 训练步骤到此结束。我们从这一步骤中得到稍微好一点的嵌入(`not` ,`thou`,`aaron`和`taco`)。我们现在进行下一步(下一个正样本及 其相关的负样本),并再次执行相同的过程。 当我们循环遍历整个数据集多次时,嵌入继续得到改进。然后我们可以停 止训练过程,丢弃`Context`矩阵,并使用`Embeddings`矩阵作为下一个任务 的预训练嵌入。 27 4 Transformer)于2018年6月由OpenAI首次提出。GPT模型考虑到在自然语言理解中有大量不同的任 务,尽管大量的未标记文本语料库非常丰富,但用于学习这些特定任务的标记数据却很少,这使得经过区分训练的模型很难充分执行。 同时,大多数深度学习方法需要大量手动标记的数据,这限制了它们在许多缺少注释资源的领域的适用性。 ✓ 在考虑以上局限性的前提下,GPT论文中证明,通过对未标记文本的不同语料库进行语言模型的生成性预训练,然后对每个特定任务 多任务模型的特点:跟传统ML需要专 门的标注数据集不同(从而训练出专 业AI),多任务模型不采用专门AI手 段,而是在海量数据喂养训练的基础 上,适配任何任务形式。 ✓ 转向更通用的系统,使其可以执行许 多任务,最终无需为每个任务手动创 建和标记训练数据集。 ✓ 机器学习系统通过使用大型数据集、高容 量模型和监督学习的组合,在训练任务方 面表现出色,然而这些系统较为脆弱,对0 码力 | 44 页 | 2.36 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱数据读写需要加锁 � ⽀持多模型和模型多版本 困难 >15亿key/秒 近千台 只读版本 写版本 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台 内存型服务 并发查询优化 数⼗台 ⽹络型服务 TB级模型实时上线 � 问题:TB模型实时多地传输和加载成本⾼ � ⽅案:⾼低频分别上线 � 更灵活的⽤法:模型多切⽚,按需上线 � Dssm � wdl0 码力 | 22 页 | 6.76 MB | 1 年前3
Keras: 基于 Python 的深度学习库返回一个编译好的模型 # 与之前那个相同 model = load_model('my_model.h5') 3.3.6.2 只保存/加载模型的结构 如果您只需要保存模型的结构,而非其权重或训练配置项,则可以执行以下操作: # 保存为 JSON json_string = model.to_json() # 保存为 YAML yaml_string = model.to_yaml() 生成的 JSON/YAML 要为多输出模型的不同输出指定不同的评估标准,还可以传递一个字典,如 metrics = {'output_a':'accuracy'}。 • sample_weight_mode: 如果你需要执行按时间步采样权重(2D 权重) ,请将其设置为 temporal。默认为 None,为采样权重(1D)。如果模型有多个输出,则可以通过传递 mode 的字典或列表,以在每个输出上使用不同的 sample_weight_mode。 系数加权的 加权总和 误差。如果是列表,那么它应该是与模型输出相对应的 1:1 映射。如果是张量,那么应该 把输出的名称(字符串)映到标量系数。 • sample_weight_mode: 如果你需要执行按时间步采样权重(2D 权重) ,请将其设置为 temporal。默认为 None,为采样权重(1D)。如果模型有多个输出,则可以通过传递 mode 的字典或列表,以在每个输出上使用不同的 sample_weight_mode。0 码力 | 257 页 | 1.19 MB | 1 年前3
《TensorFlow 2项目进阶实战》3-方案设计篇:如何设计可落地的AI解决方案������������������� �������������� ������������� ���������� �������������� ������������ ��������� 行业现状 线下销售执行:门店拍照 + 稽核抽查 + 正负反馈 稽核结果: •货架缺货 •新品未上架 •必分销未上架 •陈列审核不通过 客户现状与问题分析 现状缺点: •抽查比例低 •覆盖门店少 •人工费用高 •全局把握难 300万/月 抽查:5000张/月 客户需求:全国门店/货架智能看板 • 区域/门店达标率 • 货架可见度 • 货架占有率 • 新品上市/上架率 • 陈列达标率 • 产品价格指数 • 促销执行统计 客户需求:棚格图推荐设计与销量预测 如何落地项目第一期? 短期目标:自动化陈列审核和促销管理 业务落地基础:货架数字化 SKU 种类 数量 位置 品类 占比 货架 设计 业务落地:自动化陈列审核和促销管理 陈列 必分销 新品 纯度 排面 SKU 种类 数量 位置 品类 占比 货架 设计 场景 层数 编号 销售执行三板斧:分销达标 销售执行三板斧:新品上架陈列稽查 销售执行三板斧:陈列激励 方案设计: 基于深度学习的检测/分类的AI流水线 货架商品检测 货架商品检测 Bottle(瓶装) Combination(组合装) 货架商品检测0 码力 | 49 页 | 12.50 MB | 1 年前3
AI大模型千问 qwen 中文文档textgen python=3.11 conda activate textgen pip install torch torchvision torchaudio 接下来,您可以根据您的操作系统执行 pip install -r 命令来安装相应的依赖项,例如, pip install -r requirements_apple_silicon.txt 对于 requirements 中的 bitsandbytes �→awq.gguf 通过这种方式,您可以在 GGUF 格式的量化模型中应用 AWQ scales,这有助于提升模型的质量。 我们通常将 fp16 模型量化为 2、3、4、5、6 和 8 位模型。要执行不同低比特的量化,只需在命令中替换量化 方法即可。例如,如果你想将你的模型量化为 2 位模型,你可以按照下面所示,将 q4_0 替换为 q2_k : ./quantize models/7B/qwen1_5-7b-chat-fp16 SkyPilot 1.11.1 SkyPilot 是什么 SkyPilot 是一个可以在任何云上运行 LLM、AI 应用以及批量任务的框架,旨在实现最大程度的成本节省、最 高的 GPU 可用性以及受管理的执行过程。其特性包括: • 通过跨区域和跨云充分利用多个资源池,以获得最佳的 GPU 可用性。 • 把费用降到最低——SkyPilot 在各区域和云平台中为您挑选最便宜的资源。无需任何托管解决方案的0 码力 | 56 页 | 835.78 KB | 1 年前3
共 17 条
- 1
- 2













