监督微调 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

2020美团技术年货算法篇

2018 年底，以 Google BERT[1] 为代表的预训练语言模型刷新了多项 NLP 任务的最好水平，开创了 NLP 研究的新范式：即先基于大量无监督语料进行语言模型预训练（Pre-training），再使用少量标注语料进行微调（Fine-tuning）来完成下游的 NLP 任务（文本分类、序列标注、句间关系判断和机器阅读理解等）。美团 AI 平台搜索与 NLP 部算法团队基于美团海量业务语料训练了方式优化 Query-Doc 语义匹配任务。图 2 展示了基于 BERT 优化美团搜索核心排序相关性的技术架构图，主要包括三部分： ● 数据样本增强：由于相关性模型的训练基于搜索用户行为标注的弱监督数据，我们结合业务经验对数据做了去噪和数据映射。为了更好地评价相关性模型的离线效果，我们构建了一套人工标注的 Benchmark 数据集，指导模型迭代方向。 ● BERT 领域适配：美团业务场景中，Query 覆盖多个业务领域，如果采用人工标注的方法为每个业务领域标注一批训练样本，时间和人力成本过高。我们的解决办法是使用美团搜索积累的大量用户行为数据（如浏览、点击、下单等），这些行为数据可以作为弱监督训练数据。在算法 < 43 DSSM 模型进行样本构造时，每个 Query 下抽取 1 个正样本和 4 个负样本，这是比较常用的方法，但是其假设 Query 下的 Doc 被点击就算是相关的，这个假设在实际

0 码力 | 317 页 | 16.57 MB | 1 年前
3
2022年美团技术年货合辑

动态分配策略，并结合无锚范式，在 nano 尺寸模型上平均检测精度提升 1.3% AP。 SIoU 边界框回归损失为了进一步提升回归精度，YOLOv6 采用了 SIoU[9] 边界框回归损失函数来监督网络的学习。目标检测网络的训练一般需要至少定义两个损失函数：分类损失和边界框回归损失，而损失函数的定义往往对检测精度以及训练速度产生较大的影响。近年来，常用的边界框回归损失包括 IoU、GIoU、CIoU、DIoU 完善 YOLOv6 全系列模型，持续提升检测性能。 2) 在多种硬件平台上，设计硬件友好的模型。 3) 支持 ARM 平台部署以及量化蒸馏等全链条适配。 4) 横向拓展和引入关联技术，如半监督、自监督学习等等。 5) 探索 YOLOv6 在更多的未知业务场景上的泛化性能。 12 > 2022年美团技术年货同时也欢迎社区同学加入我们，共同建设一个适合工业应用的更快更准的目标检测框架。 QAT，对每个分支分别添加伪量化算子进行量化感知训练，由于每个分支的量化参数不同，导致多分支结构无法等效融合进行高性能部署；如果对重参数化操作之后的单分支网络进行 QAT，由于网络中不再有 BN 层，使用 QAT 方法进行微调并不容易恢复到浮点精度。而对于 RepOpt 结构网络则不存在这一问题，因为 RepOpt 在训练和部署中网络结构是保持一致的。 22 > 2022年美团技术年货图 4 RepVGG 和

0 码力 | 1356 页 | 45.90 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 17 由浅入深学习 map 容器

由浅入深学习 map 容器 by 彭于斌（ @archibate ）我负责监督你鞋习 ! 我负责监督你鞋习 ! 本期看点：用方括号 [ ] 取出 map 元素居然是错误的！能不能在遍历的同时删除元素？安全吗？ emplace ， emplace_hint ， try_emplace 的区别？课程安排 1. vector 容器初体验 & 迭代器入门 (BV1qF411T7sd) 2 技术，用户自定义迭代器与算法 9. allocator ，内存管理与对象生命周期 10. C++ 异常处理机制的前世今生我们都要认真鞋习哦我们都要认真鞋习哦第一章：读取与写入我负责监督你鞋习 ! 我负责监督你鞋习 ! map 查找元素的两个接口 • map 提供了两个查找元素的接口，一曰 [] ，二曰 at 。 • 那么他们两个又有什么区别呢？很多新手都分不清他俩，可能只认识 [] 。 m.insert({key, val}) 判断是否存在，用 m.count(key) 若存在则删除，用 m.erase(key) 第四章：迭代与遍历物理格式逻辑格式面壁者罗辑监督你鞋习 ! 面壁者罗辑监督你鞋习 ! map 的元素类型是…… • set::value_type 是 V 。 • map::value_type 是 pair 。

0 码力 | 90 页 | 8.76 MB | 1 年前
3
8 4 Deep Learning with Python 费良宏

... 机器学习－学习方式监督学习- 人工干预和验证的要求,算法：Logistic Regression，Back Propagation Neural Network 等。例如：照片分类和标签无监督学习- 无人工干预的要求, 算法: Apriori算法以及k-Means。例如：对于文档的基于上下文的自动分类半监督学习 - 介于监督学习和无监督学习之间，算法: Graph Inference 评估模型的准确性提高模型精度什么是深度学习？ "深度学习是机器学习的一个分支，是一组在多个层次上学习的算法，分别对应不同级别的抽象" 深度学习 VS. 机器学习 ML 的算法包括监督学习和无监督学习适用非线性处理单元的多层次的特征提取和转换基于对多个层的特征或者表象的学习，形成一个由低级到高级的层次结构特征传统的机器学习关注于特征工程,深度学习关注于端到端的基于原始数据的学习

0 码力 | 49 页 | 9.06 MB | 1 年前
3
1 藤井美娜 Python的NLP实战分享如何实现合同风险预测模型

分类每一个条文的条文的种类（每个种类的风险都不一样） • 根据条文的种类判断条文的内容的有利方。对甲方有利对乙方有利利益平等第i条〇〇〇〇〇〇〇〇〇〇〇〇第i条条文种类「保密范围」无监督学习监督学习预测合同的风险① 79% |################################################################################ 但是，我们需要考虑到合同文章的“甲” 和“乙”利益相反的这一点。选BERT等可以考虑到文章的前后关系的模型。（可是需要大量数据，还要考虑到可解释性的问题） <解决办法1> <解决办法2> 采取监督学习的模型，做分类问题预测合同的风险② 92% |####################################################################### section3 • 使用RandomForest分类器(RF)做两种分类 1. 预测条文的种类的multiclass分类 2. 预测条文甲方有利/平等/乙方有利的multiclass分类 • 监督学习 …… Test data 训练好的条文种类分类模型训练好的有利方分类模型 OUTPUT是 ① 条文的种类 ② 甲方有利、平等、乙方有利其中一种。 4 总结 94% |###

0 码力 | 36 页 | 3.95 MB | 1 年前
3
3 Python的NLP实战分享如何实现合同风险预测模型藤井美娜

分类每一个条文的条文的种类（每个种类的风险都不一样） • 根据条文的种类判断条文的内容的有利方。对甲方有利对乙方有利利益平等第i条〇〇〇〇〇〇〇〇〇〇〇〇第i条条文种类「保密范围」无监督学习监督学习预测合同的风险① 79% |################################################################################ 但是，我们需要考虑合同文章的“甲” 和“乙”利益相反的这一点。选BERT等可以考虑到文章的前后关系的模型。（可是需要大量数据，还要考虑到可解释性的问题） <解决办法1> <解决办法2> 采取监督学习的模型，做分类问题预测合同的风险② 92% |####################################################################### section3 • 使用RandomForest分类器(RF)做两种分类 1. 预测条文的种类的multiclass分类 2. 预测条文甲方有利/平等/乙方有利的multiclass分类 • 监督学习 …… Test data 训练好的种类分类模型训练好的利方分类模型 OUTPUT是 ① 条文的种类 ② 甲方有利、平等、乙方有利其中一种。 4 总结人生苦短，快去NLP。

0 码力 | 33 页 | 1.67 MB | 1 年前
3
9 盛泳潘 When Knowledge Graph meet Python

X is purchased by Y X is bought by Y  基于机器学习的关系抽取方法 • 有监督的关系抽取方法（e.g., 基于特征工程的方法，基于核函数的方法，基于神经网络的方法） • 弱监督的关系抽取方法 Distant Supervision（远程监督），即如果两个实体之间存在某种关系，则所有包含这两个实体的句子都表达了这种关系，这些句子的集合被称为一个“包”。

0 码力 | 57 页 | 1.98 MB | 1 年前
3
Python的智能问答之路张晓庆

Ø 泛化能力差各个击破－第二次建模 • Baseline：检索＋匹配 • 排序（Ranking） Ø 用知识库内的相似问，构造句对训练数据，训练有监督的模型 Ø 基于通用领域的问答对，构造句对训练数据，训练通用领域内有监督的模型 Ø 模型融合 Ø 判断（query，question）相关性打分，返回top n作为最终命中知识点，给出对应知识点的答案回复用户 • 依赖工具

0 码力 | 28 页 | 2.60 MB | 1 年前
3
《深入浅出MFC》2/e

从消息贮列中抓取消息。如果这个消息是WM_QUIT，GetMessage 会传回0 而结束while 循环，进而结束整个程序。 3. DispatchMessage 透过Windows USER 模块的协助与监督，把消息分派至窗口函数。消息将在该处被判别并处理。 4. 程序不断进行2. 和3. 的动作。 5. 当使用者按下系统菜单中的Close 命令项，系统送出WM_CLOSE。通常程序的窗口函 13 realtime REALTIME_PRIORITY_CLASS 24 图 1- 7 Wi n32 执行线程的优先权等级划分 49 SetThreadPriority 的参数微调幅度 THREAD_PRIORITY_LOWEST -2 THREAD_PRIORITY_BELOW_NORMAL -1 THREAD_PRIORITY_NORMAL 不变 THREAD_ 最高。在每一个等级之中，你可以使用SetThreadPriority 设定精确的优先权，并且可以稍高或稍低于该等级的正常值（范围是两个点数）。你可以把SetThreadPriority 想象是一种微调动作。除了以上五种微调，另外还可以指定两种微调常数：这些情况可以以图1-8 作为总结。 50 优先权等级 idle lowest below normal normal above normal highest time

0 码力 | 1009 页 | 11.08 MB | 1 年前
3
面向亿行 C／C++ 代码的静态分析系统设计及实践-肖枭

分析技术在企业中的应用目录代码质量管理是个大问题静态分析+代码评审的实践  学习和强调，红线和惩罚，100%的测试覆盖率，和事后复盘并不够  有经验的程序员也会犯错  对代码提要求很难监督落实  测试更多是验证功能，很难检测编码缺陷  代码的快速变化使质量更难管生产质量是责任靠运维和事后复盘善后够吗？  静态分析工具：半智能的代码分析机器人  静态分析辅助代码评审

0 码力 | 39 页 | 6.88 MB | 1 年前
3

共 132 条前往

页

分类

语言

格式