2 使用Python训练和部署低精度模型 张校捷使用Python训练和部署低精度模型 (TensorFlow版) 张校捷 2019/9/21 目录 CONTENTS 低精度的概念和意义 TensorFlow的FP16模型 TensorRT的FP16/Int8模型 总结 1 低精度的概念和意义 实数的16-bit半精度浮点数和8-bit定点数表示 使用低精度的意义 深度学习模型中实数的表示 FP32: E8M23 FP16: 6X speedup ResNet-50-v1.5 3.3X speedup SSD-RN50-FPN-640 2.5X speedup FP16浮点数(E5M10)的表示范围 FP16模型的训练方法 Int8模型的推断过程 2 TensorFlow的FP16模型 实数的16-bit半精度浮点数和8-bit定点数表示 使用低精度的意义 TensorCores适用条件 1. 卷积:K(输入通道),C(输出通道) com/tensorflow/tensorflow/blob/master/tensorflow/core/grappler/ optimizers/auto_mixed_precision_lists.h FP16训练模型精度 https://arxiv.org/pdf/1710.03740.pdf 3 TensorRT的FP16/Int8模型 TensorFlow中使用TensorRT 在TensorRT中使用FP16/Int80 码力 | 24 页 | 981.45 KB | 1 年前3
Rust OS 开源操作系统训练营的教与学-0615-李明开源操作系统训练营的教与学 李明 清华大学 2023-6-17 Rust China Conf 2023 Rust OS 开源操作系统训练营的教与学 1 Rust OS 开源训练营的起因和发展 Title Title Title 开源操作系统训练营的起源(2020年) 陈渝老师 向勇老师 OS Tutorial Summer of Code 2020 训练营过去三年的发展情况 训练营过去三年的发展情况 2020年 ~ 2022年 • 2020年 • 夏季训练营 2020.7.1 ~ 8.31 • 2021年 • 夏季训练营 2021.7.1 ~ 7.31 • 2022年 • 夏季训练营 2022.7.3 ~ 8.31 • 秋冬季训练营 2022.10.16 ~ 2023.2.1 50 118 188 448 0 50 100 150 200 250 300 1000+ 训练营的愿景和目标 目标 愿景 核心产出 探索新一代安全高性能操作系统的设计与构建 影响并培养更多的人学会写操作系统 每年为高校和企业培养1000名操作系统开发人才 参加训练营要回答的三个问题 你为什么要来参加这个活动? 为什么要以开源 的方式来参与? 我们如何能把这些 知识技能学到? Rust OS 开源操作系统训练营的教与学 2 开源训练营的总体规划和教学实践0 码力 | 26 页 | 2.62 MB | 1 年前3
2020美团技术年货 算法篇搜索引 擎。当前,美团搜索整体架构主要由搜索数据平台、在线检索框架及云搜平台、在线 AI 服务及实验平台三大体系构成。在 AI 服务及实验平台中,模型训练平台 Poker 和 在线预估框架 Augur 是搜索 AI 化的核心组件,解决了模型从离线训练到在线服务的 一系列系统问题,极大地提升了整个搜索策略迭代效率、在线模型预估的性能以及排 序稳定性,并助力商户、外卖、内容等核心搜索场景业务指标的飞速提升。 内的一次完整的搜索行为主要涉及哪些技术模块。如 下图所示,从点击输入框到最终的结果展示,从热门推荐,到动态补全、最终的商户 列表展示、推荐理由的展示等,每一个模块都要经过若干层的模型处理或者规则干 预,才会将最适合用户(指标)的结果展示在大家的眼前。 为了保证良好的用户体验,技术团队对模型预估能力的要求变得越来越高,同时模型 与特征的类型、数量及复杂度也在与日俱增。算法团队如何尽量少地开发和部署上 入模型,并根据输出的 值(即模型预估的值)对原有的文档进行排序或者其他处理。 纯粹从一个工程人员视角来看: 模型可以简化为一个公式( 举例:f(x1,x2)= ax1 + bx2 +c ),训练模型是找出最合适的参数 abc。所谓特征,是其中的自变量 x1 与 x2,而模型预估,就是将给定的自变量 x1 与 x2 代入公式,求得一个解而已。(当然 实际模型输出的结果可能会更加复杂,包括输出矩阵、向量等等,这里只是简单的举0 码力 | 317 页 | 16.57 MB | 1 年前3
PaddleDTX 1.1.0 中文文档由多方安全计算网络、去中心化存储网络、区块链网络构建而成。 1 PaddleDTX Documentation 1.2.1 1.1 多方安全计算网络 有预测需求的一方为计算需求节点。可获取样本数据进行模型训练和预测的一方为任务执行节点,多个任务 执行节点组成一个 SMPC(多方安全计算)网络。计算需求节点将任务发布到区块链网络,任务执行节点确 认后执行任务。数据持有节点对任务执行节点的计算数据做信任背书。 节点的挑战证明自己持有数据分片。通过这些机制,实现了在不泄漏隐私的前提下充分且安全地利用存储资 源。 训练样本和预测数据集往往是归属于不同机构的隐私数据。这些机构可以作为数据持有节点加入到去中心化 存储网络中,通过多方安全计算网络发挥数据的最大价值。 1.2.3 1.3 区块链网络 训练任务和预测任务通过区块链网络广播到任务执行节点,后者继而执行训练任务和预测任务。数据持有节 点和存储节点在副本保持证明、健康状态监控过程中,通过区块链网络实现信息交换。 的相关概念,帮助您初步认识系统,了解其基本运行机制,方便后续进一步阅读。 2.1 节点和网络 PaddleDTX 中有五类节点: • 计算需求节点(Requester)有训练模型和预测需求。 • 任务执行节点(Executor)拥有使用数据的权限,参与多方安全计算,进行模型训练和数据预测。 • 数据持有节点(DataOwner)是数据的归属方,有存储数据的需求。 • 存储节点(Storage Nodes)有丰富的闲置的存储资源,可以提供存储服务。0 码力 | 65 页 | 687.09 KB | 1 年前3
2022年美团技术年货 合辑版本来啦 13 通用目标检测开源框架 YOLOv6 在美团的量化部署实战 17 7 次 KDD Cup&Kaggle 冠军的经验分享:从多领域优化到 AutoML 框架 37 图神经网络训练框架的实践和探索 66 图技术在美团外卖下的场景化应用及探索 83 大规模异构图召回在美团到店推荐广告的应用 102 美团搜索粗排优化的探索与实践 116 美团外卖推荐情境化智能流量分发的实践与探索 2021 | Twins:重新思考高效的视觉注意力模型设计 339 目录 iv > 2022年美团技术年货 美团获得小样本学习榜单 FewCLUE 第一! Prompt Learning+ 自训练实战 353 DSTC10 开放领域对话评估比赛冠军方法总结 368 KDD 2022 | 美团技术团队精选论文解读 382 ACM SIGIR 2022 | 美团技术团队精选论文解读 < v Replication(上):常见复制模型 & 分布式系统挑战 792 Replication(下):事务,一致性与共识 818 TensorFlow 在美团外卖推荐场景的 GPU 训练优化实践 855 CompletableFuture 原理与实践 - 外卖商家端 API 的异步化 879 工程效能 CI/CD 之流水线引擎的建设实践 912 美团外卖搜索基于 Elasticsearch0 码力 | 1356 页 | 45.90 MB | 1 年前3
PaddleDTX 1.0.0 中文文档由多方安全计算网络、去中心化存储网络、区块链网络构建而成。 1 PaddleDTX Documentation 1.2.1 1.1 多方安全计算网络 有预测需求的一方为计算需求节点。可获取样本数据进行模型训练和预测的一方为任务执行节点,多个任务 执行节点组成一个 SMPC(多方安全计算)网络。计算需求节点将任务发布到区块链网络,任务执行节点确 认后执行任务。数据持有节点对任务执行节点的计算数据做信任背书。 节点的挑战证明自己持有数据分片。通过这些机制,实现了在不泄漏隐私的前提下充分且安全地利用存储资 源。 训练样本和预测数据集往往是归属于不同机构的隐私数据。这些机构可以作为数据持有节点加入到去中心化 存储网络中,通过多方安全计算网络发挥数据的最大价值。 1.2.3 1.3 区块链网络 训练任务和预测任务通过区块链网络广播到任务执行节点,后者继而执行训练任务和预测任务。数据持有节 点和存储节点在副本保持证明、健康状态监控过程中,通过区块链网络实现信息交换。 的相关概念,帮助您初步认识系统,了解其基本运行机制,方便后续进一步阅读。 2.1 节点和网络 PaddleDTX 中有五类节点: • 计算需求节点(Requester)有训练模型和预测需求。 • 任务执行节点(Executor)拥有使用数据的权限,参与多方安全计算,进行模型训练和数据预测。 • 数据持有节点(DataOwner)是数据的归属方,有存储数据的需求。 • 存储节点(Storage Nodes)有丰富的闲置的存储资源,可以提供存储服务。0 码力 | 57 页 | 624.94 KB | 1 年前3
美团点评2018技术年货encode 代码,单步执行之后,就定位到这行代码: Netty堆外内存泄露排查盛宴 - 美团技术团队 这段代码是把 packet 里面一个字段的值转换为一个 char。然而,当我们使用 idea 预执行的时候,却抛 出类一个愤怒的 NPE!!也就是说,框架申请到一段内存之后,在 encoder 的时候,自己 GG 了,还给 自己挖了个NPE的深坑,最后导致内存无法释放(最外层有堆外内存释放逻辑,现在无法执行到了)。而 来定位最终出 Bug 的代码。这个方法屡试不爽,最后 总能找到想要的 Bug。 4. 熟练掌握 idea 的调试,让我们的“捉虫”速度快如闪电(“闪电侠”就是这么来的)。这里,最常见的调试方式是预执 行表达式,以及通过线程调用栈,死盯某个对象,就能够掌握这个对象的定义、赋值之类。 最后,祝愿大家都能找到自己的“心仪已久” Bug! 作者简介 作者简介 闪电侠,2014年加入美团点评,主 的大厂才能 实现。 另外W3C也提供了DNS预读的方案,可以通过在服务器端发送 X-DNS-Prefetch-Control 报头,或是在 文档中使用值为 http-equiv 的 标签: 的方式来打开浏览器的DNS预读取功 能,但是该API功能目前在移动端浏览器内核中实现支持的较少。0 码力 | 229 页 | 61.61 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming否有点因噎废食?所以现在的 CPU 都有分支预测的能力。举例来说:你每天都执行刚刚 说的那个“早间活动”的任务清单。你发现“如果烧开水被烫伤”这件事似乎从来没发生过,于 是你渐渐意识到,被烫伤是个小概率事件,所以你“预判”到今天应该也不会发生意外,不再 等待烧完开水才开始刷牙,而是针对性地为“没烫伤”的那个剧本优化。把刷牙、看比站和烧 开水同时进行,但刷牙、看比站在烧完开水前都处于“虚”的状态,也就是虽然在做但是不写 吃饭 看比站 拉粑粑 5 5 10 20 刷牙 吃饭 看比站 拉粑粑 5 10 20 洗脸 烧开水 5 5 没烫伤 去医院 10 烫伤了 去医院 10 烫伤了 多次训练 现代 CPU 流水线如何应付跳转指令:分支预测 • 假如有分支 A 和分支 B ,一开始 CPU 不确定会执行哪一条,会两条都预先执行(只计算 出中间结果,先不写回内存),等到了跳转指令(烧开水)处确定了要走分支 的算力)。这就是说 CPU 第一次遇见一个分支时,两个分支都会被预执行 。 • 同一段程序被多次执行后,如果每次都是分支 A ,下一次 CPU 就会总结经验,预判到下 一次应该也是分支 A ,并且把 90% 的流水线用于预先执行分支 A 的剧本, 10% 的流水 线用于预先执行分支 B 。如果预判成功,的确走了分支 A ,那么只会浪费 10% 的算力; 如果预判失败,最后走了分支 B ,那就不得不把预先执行分支0 码力 | 47 页 | 8.45 MB | 1 年前3
Python的智能问答之路 张晓庆 同一知识点下的问题语义相同,是很好的 训练数据 智能问答应用场景 • 辅助人工 Ø 客服 Ø 营销 Ø 特定领域、重复性的对话 • GUI补充 Ø 语音助手 Ø 电话助手 • Voice-only Apps Ø 智能音箱 Ø 车载设备 Ø 可穿戴设备 2 QA快速实践 任务拆解、各个击破 任务拆解 • 业务 Ø 解决什么问题? • 数据 Ø 标注数据 Ø 训练数据 Ø 测试数据 Ø 评估数据 相似意图区分能力弱 Ø 泛化能力差 各个击破-第二次建模 • Baseline:检索+匹配 • 排序(Ranking) Ø 用知识库内的相似问,构造句对训练数 据,训练有监督的模型 Ø 基于通用领域的问答对,构造句对训练 数据,训练通用领域内有监督的模型 Ø 模型融合 Ø 判断(query,question)相关性打分, 返回top n作为最终命中知识点,给出对 应知识点的答案回复用户 Ø Python及第三方扩展包 各个击破-模型 各个击破-数据 • 开源数据抓取&清洗 • 依赖工具 Ø requests抓取数据 Ø retry重试 • 模型训练&特征生成 • 依赖工具 • gensim:训练word2vec • jieba:切词,统计生成PMI/TM词典 • difflib:调用SequenceMatcher生成edit-distance • fastte0 码力 | 28 页 | 2.60 MB | 1 年前3
美团点评旅游推荐系统的演进dn …… q3 d1 d2 d3 d4 dn …… qi d1 d2 d3 d4 dn …… qn d1 d2 d3 d4 dn …… …… …… 训练样本 Learning System q1 d1[x1,x2,x3,x4,x5,x6,x7,…] d2[x1,x2,x3,x4,x5,x6,x7,…] d3[x1,x2,x3,x4,x5,x6 d6 d5 … 。 。 d1 Model h 线上工程 问题建模 •GBDT •非线性 •High Level特征多 •XGBoost •泰勒展开,利用了二阶导数信息 •对数据预排序,性能更高 •多模型融合 •GBDT模型+FFM模型 问题建模 •FFM •矩阵分解+回归 •Low Level特征多 •情景推荐 •发现特征关联关系 •用户画像 •上下文 •POI 0.033357 0.948812 13447 662 0.950770 模型训练 •模型训练 •单机VS分布式 •目标函数:binary:logistic •过拟合VS欠拟合 •样本大小&树的棵数 •样本和特征随机采样 •模型复杂度:max_depth,min_child_weight •通用离线训练工具 •流程抽象化、组件化 •提供公共组件,支持定制组件 效果评估&线上迭代0 码力 | 49 页 | 5.97 MB | 1 年前3
共 175 条
- 1
- 2
- 3
- 4
- 5
- 6
- 18













