 2020美团技术年货 算法篇2018 年底,以 Google BERT[1] 为代表的预训练语言模型刷新了多项 NLP 任务的 最好水平,开创了 NLP 研究的新范式:即先基于大量无监督语料进行语言模型预 训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成下游的 NLP 任务(文本分类、序列标注、句间关系判断和机器阅读理解等)。美团 AI 平台搜 索与 NLP 部算法团队基于美团海量业务语料训练了 方式优化 Query-Doc 语义匹配任务。图 2 展示了基于 BERT 优化美 团搜索核心排序相关性的技术架构图,主要包括三部分: ● 数据样本增强:由于相关性模型的训练基于搜索用户行为标注的弱监督数据, 我们结合业务经验对数据做了去噪和数据映射。为了更好地评价相关性模型 的离线效果,我们构建了一套人工标注的 Benchmark 数据集,指导模型迭 代方向。 ● BERT 领域适配:美团业务场景中,Query 覆盖多个业务领域,如果采用人工标注的方法为每个业务领域标注一 批训练样本,时间和人力成本过高。我们的解决办法是使用美团搜索积累的大量用 户行为数据(如浏览、点击、下单等), 这些行为数据可以作为弱监督训练数据。在 算法 < 43 DSSM 模型进行样本构造时,每个 Query 下抽取 1 个正样本和 4 个负样本,这是比 较常用的方法,但是其假设 Query 下的 Doc 被点击就算是相关的,这个假设在实际0 码力 | 317 页 | 16.57 MB | 1 年前3 2020美团技术年货 算法篇2018 年底,以 Google BERT[1] 为代表的预训练语言模型刷新了多项 NLP 任务的 最好水平,开创了 NLP 研究的新范式:即先基于大量无监督语料进行语言模型预 训练(Pre-training),再使用少量标注语料进行微调(Fine-tuning)来完成下游的 NLP 任务(文本分类、序列标注、句间关系判断和机器阅读理解等)。美团 AI 平台搜 索与 NLP 部算法团队基于美团海量业务语料训练了 方式优化 Query-Doc 语义匹配任务。图 2 展示了基于 BERT 优化美 团搜索核心排序相关性的技术架构图,主要包括三部分: ● 数据样本增强:由于相关性模型的训练基于搜索用户行为标注的弱监督数据, 我们结合业务经验对数据做了去噪和数据映射。为了更好地评价相关性模型 的离线效果,我们构建了一套人工标注的 Benchmark 数据集,指导模型迭 代方向。 ● BERT 领域适配:美团业务场景中,Query 覆盖多个业务领域,如果采用人工标注的方法为每个业务领域标注一 批训练样本,时间和人力成本过高。我们的解决办法是使用美团搜索积累的大量用 户行为数据(如浏览、点击、下单等), 这些行为数据可以作为弱监督训练数据。在 算法 < 43 DSSM 模型进行样本构造时,每个 Query 下抽取 1 个正样本和 4 个负样本,这是比 较常用的方法,但是其假设 Query 下的 Doc 被点击就算是相关的,这个假设在实际0 码力 | 317 页 | 16.57 MB | 1 年前3
 2022年美团技术年货 合辑动态分配策略,并结合无锚范式,在 nano 尺寸 模型上平均检测精度提升 1.3% AP。 SIoU 边界框回归损失 为了进一步提升回归精度,YOLOv6 采用了 SIoU[9] 边界框回归损失函数来监督网络 的学习。目标检测网络的训练一般需要至少定义两个损失函数:分类损失和边界框回 归损失,而损失函数的定义往往对检测精度以及训练速度产生较大的影响。 近年来,常用的边界框回归损失包括 IoU、GIoU、CIoU、DIoU 完善 YOLOv6 全系列模型,持续提升检测性能。 2) 在多种硬件平台上,设计硬 件友好的模型。 3) 支持 ARM 平台部署以及量化蒸馏等全链条适配。 4) 横向拓展和 引入关联技术,如半监督、自监督学习等等。 5) 探索 YOLOv6 在更多的未知业务场 景上的泛化性能。 12 > 2022年美团技术年货 同时也欢迎社区同学加入我们,共同建设一个适合工业应用的更快更准的目标检测 框架。 QAT,对每个分支分别添加伪量化算子进行量化感知训练,由于每个分支的 量化参数不同,导致多分支结构无法等效融合进行高性能部署;如果对重参数化操作 之后的单分支网络进行 QAT, 由于网络中不再有 BN 层,使用 QAT 方法进行微调并 不容易恢复到浮点精度。而对于 RepOpt 结构网络则不存在这一问题,因为 RepOpt 在训练和部署中网络结构是保持一致的。 22 > 2022年美团技术年货 图 4 RepVGG 和0 码力 | 1356 页 | 45.90 MB | 1 年前3 2022年美团技术年货 合辑动态分配策略,并结合无锚范式,在 nano 尺寸 模型上平均检测精度提升 1.3% AP。 SIoU 边界框回归损失 为了进一步提升回归精度,YOLOv6 采用了 SIoU[9] 边界框回归损失函数来监督网络 的学习。目标检测网络的训练一般需要至少定义两个损失函数:分类损失和边界框回 归损失,而损失函数的定义往往对检测精度以及训练速度产生较大的影响。 近年来,常用的边界框回归损失包括 IoU、GIoU、CIoU、DIoU 完善 YOLOv6 全系列模型,持续提升检测性能。 2) 在多种硬件平台上,设计硬 件友好的模型。 3) 支持 ARM 平台部署以及量化蒸馏等全链条适配。 4) 横向拓展和 引入关联技术,如半监督、自监督学习等等。 5) 探索 YOLOv6 在更多的未知业务场 景上的泛化性能。 12 > 2022年美团技术年货 同时也欢迎社区同学加入我们,共同建设一个适合工业应用的更快更准的目标检测 框架。 QAT,对每个分支分别添加伪量化算子进行量化感知训练,由于每个分支的 量化参数不同,导致多分支结构无法等效融合进行高性能部署;如果对重参数化操作 之后的单分支网络进行 QAT, 由于网络中不再有 BN 层,使用 QAT 方法进行微调并 不容易恢复到浮点精度。而对于 RepOpt 结构网络则不存在这一问题,因为 RepOpt 在训练和部署中网络结构是保持一致的。 22 > 2022年美团技术年货 图 4 RepVGG 和0 码力 | 1356 页 | 45.90 MB | 1 年前3
 C++高性能并行编程与优化 -  课件 - 17 由浅入深学习 map 容器由浅入深学习 map 容器 by 彭于斌( @archibate ) 我负责监督你鞋习 ! 我负责监督你鞋习 ! 本期看点: 用方括号 [ ] 取出 map 元素居然是错误的! 能不能在遍历的同时删除元素?安全吗? emplace , emplace_hint , try_emplace 的区别? 课程安排 1. vector 容器初体验 & 迭代器入门 (BV1qF411T7sd) 2 技术,用户自定义迭代器与算法 9. allocator ,内存管理与对象生命周期 10. C++ 异常处理机制的前世今生 我们都要认真鞋习哦 我们都要认真鞋习哦 第一章:读取与写入 我负责监督你鞋习 ! 我负责监督你鞋习 ! map 查找元素的两个接口 • map 提供了两个查找元素的接口,一曰 [] ,二曰 at 。 • 那么他们两个又有什么区别呢?很多新手都分不清他俩,可能只认识 [] 。 m.insert({key, val}) 判断是否存在,用 m.count(key) 若存在则删除,用 m.erase(key) 第四章:迭代与遍历 物理格式 逻辑格式 面壁者罗辑监督你鞋习 ! 面壁者罗辑监督你鞋习 ! map 的元素类型是…… • set C++高性能并行编程与优化 -  课件 - 17 由浅入深学习 map 容器由浅入深学习 map 容器 by 彭于斌( @archibate ) 我负责监督你鞋习 ! 我负责监督你鞋习 ! 本期看点: 用方括号 [ ] 取出 map 元素居然是错误的! 能不能在遍历的同时删除元素?安全吗? emplace , emplace_hint , try_emplace 的区别? 课程安排 1. vector 容器初体验 & 迭代器入门 (BV1qF411T7sd) 2 技术,用户自定义迭代器与算法 9. allocator ,内存管理与对象生命周期 10. C++ 异常处理机制的前世今生 我们都要认真鞋习哦 我们都要认真鞋习哦 第一章:读取与写入 我负责监督你鞋习 ! 我负责监督你鞋习 ! map 查找元素的两个接口 • map 提供了两个查找元素的接口,一曰 [] ,二曰 at 。 • 那么他们两个又有什么区别呢?很多新手都分不清他俩,可能只认识 [] 。 m.insert({key, val}) 判断是否存在,用 m.count(key) 若存在则删除,用 m.erase(key) 第四章:迭代与遍历 物理格式 逻辑格式 面壁者罗辑监督你鞋习 ! 面壁者罗辑监督你鞋习 ! map 的元素类型是…… • set- ::value_type 是 V 。 • map - ::value_type 是 pair - 。 0 码力 | 90 页 | 8.76 MB | 1 年前3
 8 4 Deep Learning with Python 费良宏 ... 机器学习-学习方式 监督学习- 人工干预和验证的要求,算法:Logistic Regression,Back Propagation Neural Network 等。例如:照片分类和标签 无监督学习- 无人工干预的要求, 算法: Apriori算法以及k-Means。例如:对于文档的基于上下 文的自动分类 半监督学习 - 介于监督学习和无监督学习之间,算法: Graph Inference 评估模型的准确性 提高模型精度 什么是深度学习? "深度学习是机器学习的一个分支,是一组在多个层次上 学习的算法,分别对应不同级别的抽象" 深度学习 VS. 机器学习 ML 的算法包括监督学习和无监督学习 适用非线性处理单元的多层次的特征提取和转换 基于对多个层的特征或者表象的学习,形成一个由低级 到高级的层次结构特征 传统的机器学习关注于特征工程,深度学习关注于端到 端的基于原始数据的学习0 码力 | 49 页 | 9.06 MB | 1 年前3 8 4 Deep Learning with Python 费良宏 ... 机器学习-学习方式 监督学习- 人工干预和验证的要求,算法:Logistic Regression,Back Propagation Neural Network 等。例如:照片分类和标签 无监督学习- 无人工干预的要求, 算法: Apriori算法以及k-Means。例如:对于文档的基于上下 文的自动分类 半监督学习 - 介于监督学习和无监督学习之间,算法: Graph Inference 评估模型的准确性 提高模型精度 什么是深度学习? "深度学习是机器学习的一个分支,是一组在多个层次上 学习的算法,分别对应不同级别的抽象" 深度学习 VS. 机器学习 ML 的算法包括监督学习和无监督学习 适用非线性处理单元的多层次的特征提取和转换 基于对多个层的特征或者表象的学习,形成一个由低级 到高级的层次结构特征 传统的机器学习关注于特征工程,深度学习关注于端到 端的基于原始数据的学习0 码力 | 49 页 | 9.06 MB | 1 年前3
 1 藤井美娜 Python的NLP实战分享 如何实现合同风险预测模型 分类每一个条文的条文的种类(每个种类的风 险都不一样) • 根据条文的种类判断条文的内容的有利方。 对甲方有利 对乙方有利 利益平等 第i条 〇〇〇〇〇〇〇〇〇〇〇〇 第i条 条文种类「保密范围」 无监督学习 监督学习 预测合同的风险① 79% |################################################################################ 但是,我们需要考虑到合同文章的“甲” 和“乙”利益相反的这一点。 选BERT等可以考虑到文章的前后关系的 模型。 (可是需要大量数据,还要考虑到可解 释性的问题) <解决办法1> <解决办法2> 采取监督学习的模型,做分类问题 预测合同的风险② 92% |####################################################################### section3 • 使用RandomForest分类器(RF)做两种分类 1. 预测条文的种类的multiclass分类 2. 预测条文甲方有利/平等/乙方有利的multiclass分类 • 监督学习 …… Test data 训练好的条文种类分类模型 训练好的有利方分类模型 OUTPUT是 ① 条文的种类 ② 甲方有利、平等、乙方 有利其中一种。 4 总结 94% |###0 码力 | 36 页 | 3.95 MB | 1 年前3 1 藤井美娜 Python的NLP实战分享 如何实现合同风险预测模型 分类每一个条文的条文的种类(每个种类的风 险都不一样) • 根据条文的种类判断条文的内容的有利方。 对甲方有利 对乙方有利 利益平等 第i条 〇〇〇〇〇〇〇〇〇〇〇〇 第i条 条文种类「保密范围」 无监督学习 监督学习 预测合同的风险① 79% |################################################################################ 但是,我们需要考虑到合同文章的“甲” 和“乙”利益相反的这一点。 选BERT等可以考虑到文章的前后关系的 模型。 (可是需要大量数据,还要考虑到可解 释性的问题) <解决办法1> <解决办法2> 采取监督学习的模型,做分类问题 预测合同的风险② 92% |####################################################################### section3 • 使用RandomForest分类器(RF)做两种分类 1. 预测条文的种类的multiclass分类 2. 预测条文甲方有利/平等/乙方有利的multiclass分类 • 监督学习 …… Test data 训练好的条文种类分类模型 训练好的有利方分类模型 OUTPUT是 ① 条文的种类 ② 甲方有利、平等、乙方 有利其中一种。 4 总结 94% |###0 码力 | 36 页 | 3.95 MB | 1 年前3
 3 Python的NLP实战分享 如何实现合同风险预测模型 藤井美娜分类每一个条文的条文的种类(每个种类的风 险都不一样) • 根据条文的种类判断条文的内容的有利方。 对甲方有利 对乙方有利 利益平等 第i条 〇〇〇〇〇〇〇〇〇〇〇〇 第i条 条文种类「保密范围」 无监督学习 监督学习 预测合同的风险① 79% |################################################################################ 但是,我们需要考虑合同文章的“甲” 和“乙”利益相反的这一点。 选BERT等可以考虑到文章的前后关系的 模型。(可是需要大量数据,还要考虑 到可解释性的问题) <解决办法1> <解决办法2> 采取监督学习的模型,做分类问题 预测合同的风险② 92% |####################################################################### section3 • 使用RandomForest分类器(RF)做两种分类 1. 预测条文的种类的multiclass分类 2. 预测条文甲方有利/平等/乙方有利的multiclass分类 • 监督学习 …… Test data 训练好的种类分类模型 训练好的利方分类模型 OUTPUT是 ① 条文的种类 ② 甲方有利、平等、乙方 有利其中一种。 4 总结 人生苦短,快去NLP。0 码力 | 33 页 | 1.67 MB | 1 年前3 3 Python的NLP实战分享 如何实现合同风险预测模型 藤井美娜分类每一个条文的条文的种类(每个种类的风 险都不一样) • 根据条文的种类判断条文的内容的有利方。 对甲方有利 对乙方有利 利益平等 第i条 〇〇〇〇〇〇〇〇〇〇〇〇 第i条 条文种类「保密范围」 无监督学习 监督学习 预测合同的风险① 79% |################################################################################ 但是,我们需要考虑合同文章的“甲” 和“乙”利益相反的这一点。 选BERT等可以考虑到文章的前后关系的 模型。(可是需要大量数据,还要考虑 到可解释性的问题) <解决办法1> <解决办法2> 采取监督学习的模型,做分类问题 预测合同的风险② 92% |####################################################################### section3 • 使用RandomForest分类器(RF)做两种分类 1. 预测条文的种类的multiclass分类 2. 预测条文甲方有利/平等/乙方有利的multiclass分类 • 监督学习 …… Test data 训练好的种类分类模型 训练好的利方分类模型 OUTPUT是 ① 条文的种类 ② 甲方有利、平等、乙方 有利其中一种。 4 总结 人生苦短,快去NLP。0 码力 | 33 页 | 1.67 MB | 1 年前3
 9 盛泳潘 When Knowledge Graph meet Python X is purchased by Y X is bought by Y  基于机器学习的关系抽取方法 • 有监督的关系抽取方法(e.g., 基于特征工程的方法,基于核函数的方法,基于神经网络的方法) • 弱监督的关系抽取方法 Distant Supervision(远程监督),即如果两个实体之间存在某种关系,则所有包含这两个实体的句子都 表达了这种关系,这些句子的集合被称为一个“包”。0 码力 | 57 页 | 1.98 MB | 1 年前3 9 盛泳潘 When Knowledge Graph meet Python X is purchased by Y X is bought by Y  基于机器学习的关系抽取方法 • 有监督的关系抽取方法(e.g., 基于特征工程的方法,基于核函数的方法,基于神经网络的方法) • 弱监督的关系抽取方法 Distant Supervision(远程监督),即如果两个实体之间存在某种关系,则所有包含这两个实体的句子都 表达了这种关系,这些句子的集合被称为一个“包”。0 码力 | 57 页 | 1.98 MB | 1 年前3
 Python的智能问答之路 张晓庆 Ø 泛化能力差 各个击破-第二次建模 • Baseline:检索+匹配 • 排序(Ranking) Ø 用知识库内的相似问,构造句对训练数 据,训练有监督的模型 Ø 基于通用领域的问答对,构造句对训练 数据,训练通用领域内有监督的模型 Ø 模型融合 Ø 判断(query,question)相关性打分, 返回top n作为最终命中知识点,给出对 应知识点的答案回复用户 • 依赖工具0 码力 | 28 页 | 2.60 MB | 1 年前3 Python的智能问答之路 张晓庆 Ø 泛化能力差 各个击破-第二次建模 • Baseline:检索+匹配 • 排序(Ranking) Ø 用知识库内的相似问,构造句对训练数 据,训练有监督的模型 Ø 基于通用领域的问答对,构造句对训练 数据,训练通用领域内有监督的模型 Ø 模型融合 Ø 判断(query,question)相关性打分, 返回top n作为最终命中知识点,给出对 应知识点的答案回复用户 • 依赖工具0 码力 | 28 页 | 2.60 MB | 1 年前3
 《深入浅出MFC》2/e从消息贮列中抓取消息。如果这个消 息是WM_QUIT,GetMessage 会传回0 而结束while 循环,进而结束整个程序。 3. DispatchMessage 透过Windows USER 模块的协助与监督,把消息分派至窗口 函数。消息将在该处被判别并处理。 4. 程序不断进行2. 和3. 的动作。 5. 当使用者按下系统菜单中的Close 命令项,系统送出WM_CLOSE。通常程序 的窗口函 13 realtime REALTIME_PRIORITY_CLASS 24 图 1- 7 Wi n32 执 行 线 程 的优先权等级划分 49 SetThreadPriority 的参数 微调幅度 THREAD_PRIORITY_LOWEST -2 THREAD_PRIORITY_BELOW_NORMAL -1 THREAD_PRIORITY_NORMAL 不变 THREAD_ 最高。在每一个等级之中,你可以使用SetThreadPriority 设定精确的优先权,并且可以稍高或稍低于该等级的正常值(范围是两个点数)。你可 以把SetThreadPriority 想象是一种微调动作。 除了以上五种微调,另外还可以指定两种微调常数: 这些情况可以以图1-8 作为总结。 50 优先权等级 idle lowest below normal normal above normal highest time0 码力 | 1009 页 | 11.08 MB | 1 年前3 《深入浅出MFC》2/e从消息贮列中抓取消息。如果这个消 息是WM_QUIT,GetMessage 会传回0 而结束while 循环,进而结束整个程序。 3. DispatchMessage 透过Windows USER 模块的协助与监督,把消息分派至窗口 函数。消息将在该处被判别并处理。 4. 程序不断进行2. 和3. 的动作。 5. 当使用者按下系统菜单中的Close 命令项,系统送出WM_CLOSE。通常程序 的窗口函 13 realtime REALTIME_PRIORITY_CLASS 24 图 1- 7 Wi n32 执 行 线 程 的优先权等级划分 49 SetThreadPriority 的参数 微调幅度 THREAD_PRIORITY_LOWEST -2 THREAD_PRIORITY_BELOW_NORMAL -1 THREAD_PRIORITY_NORMAL 不变 THREAD_ 最高。在每一个等级之中,你可以使用SetThreadPriority 设定精确的优先权,并且可以稍高或稍低于该等级的正常值(范围是两个点数)。你可 以把SetThreadPriority 想象是一种微调动作。 除了以上五种微调,另外还可以指定两种微调常数: 这些情况可以以图1-8 作为总结。 50 优先权等级 idle lowest below normal normal above normal highest time0 码力 | 1009 页 | 11.08 MB | 1 年前3
 面向亿行 C/C++ 代码的静态分析系统设计及实践-肖枭分析技术在企业中的应用 目录 代码质量管理是个大问题 静态分析+代码评审的实践  学习和强调,红线和惩罚,100%的测试 覆盖率,和事后复盘并不够  有经验的程序员也会犯错  对代码提要求很难监督落实  测试更多是验证功能,很难检测编码缺陷  代码的快速变化使质量更难管 生产质量是责任 靠运维和事后复盘善后够吗?  静态分析工具:半智能的代码分析机器人  静态分析辅助代码评审0 码力 | 39 页 | 6.88 MB | 1 年前3 面向亿行 C/C++ 代码的静态分析系统设计及实践-肖枭分析技术在企业中的应用 目录 代码质量管理是个大问题 静态分析+代码评审的实践  学习和强调,红线和惩罚,100%的测试 覆盖率,和事后复盘并不够  有经验的程序员也会犯错  对代码提要求很难监督落实  测试更多是验证功能,很难检测编码缺陷  代码的快速变化使质量更难管 生产质量是责任 靠运维和事后复盘善后够吗?  静态分析工具:半智能的代码分析机器人  静态分析辅助代码评审0 码力 | 39 页 | 6.88 MB | 1 年前3
共 132 条
- 1
- 2
- 3
- 4
- 5
- 6
- 14














