 2022年美团技术年货 合辑的问题,迭代中的一个 关键问题不是评估效果的好坏,而是方案是否存在不必要的超参数等信息,能否不断 地简化 AutoML 的建模,不断地自动化,自适应适配各类问题。 最后,也特别感谢 Convolution Team、Nomo Team、Getmax Team、Aister Team 等队伍的队友们。 总结 本文基于笔者 7 次算法比赛的冠军经历,分享推荐系统、时间序列及自动化机器学习 处理来自不同空间尺 度的特征,从而能够广泛应用于图像分割、检测等变长输入的场景。 ● Twins-SVT 提 出 了 空 间 可 分 离 自 注 意 力 机 制(Spatially Separable Self-Attention,SSSA)来对图像特征的空间维度进行分组,分别计算各局 部空间的自注意力,再利用全局自注意力机制对其进行融合。这种机制在计算 上更高效,性能更优。 Twins 相结合,形成 Twins-PCPVT 来支持尺度变化场景的下游任务。再从自注意机制的效 率和感受野角度出发,设计了兼容局部和全局感受野的新型自注意力,叫做空间可分离 自注意力 (Spatially Separable Self-Attention,SSSA), 形成了 Twins-SVT。 Twins-PCPVT Twins-PCPVT 通过将 PVT 中的位置编码(和 DeiT [7] 一样固定长度、可学习的位0 码力 | 1356 页 | 45.90 MB | 1 年前3 2022年美团技术年货 合辑的问题,迭代中的一个 关键问题不是评估效果的好坏,而是方案是否存在不必要的超参数等信息,能否不断 地简化 AutoML 的建模,不断地自动化,自适应适配各类问题。 最后,也特别感谢 Convolution Team、Nomo Team、Getmax Team、Aister Team 等队伍的队友们。 总结 本文基于笔者 7 次算法比赛的冠军经历,分享推荐系统、时间序列及自动化机器学习 处理来自不同空间尺 度的特征,从而能够广泛应用于图像分割、检测等变长输入的场景。 ● Twins-SVT 提 出 了 空 间 可 分 离 自 注 意 力 机 制(Spatially Separable Self-Attention,SSSA)来对图像特征的空间维度进行分组,分别计算各局 部空间的自注意力,再利用全局自注意力机制对其进行融合。这种机制在计算 上更高效,性能更优。 Twins 相结合,形成 Twins-PCPVT 来支持尺度变化场景的下游任务。再从自注意机制的效 率和感受野角度出发,设计了兼容局部和全局感受野的新型自注意力,叫做空间可分离 自注意力 (Spatially Separable Self-Attention,SSSA), 形成了 Twins-SVT。 Twins-PCPVT Twins-PCPVT 通过将 PVT 中的位置编码(和 DeiT [7] 一样固定长度、可学习的位0 码力 | 1356 页 | 45.90 MB | 1 年前3
 Data Is All You Need for Fusionfern::Interval (y, out.y_start, out.y_start + out.y_len, l fern::Compute( fern::Producer(Convolution Input Filters Convolution 65 }) )) template Data Is All You Need for Fusionfern::Interval (y, out.y_start, out.y_start + out.y_len, l fern::Compute( fern::Producer(Convolution Input Filters Convolution 65 }) )) template- void gemm(Matrix - A,Matrix - B,Matrix - fern::Interval - void conv(image - input, image - filter, int StrideArg, image - out);Convolution Input Filters Convolution 66 }) )) template - void gemm(Matrix - A,Matrix - B,Matrix - fern::Interval - void conv(image - input, image - filter, int StrideArg, image - out);Convolution Input Filters Convolution 67 }) )) template - void gemm(Matrix - A,Matrix - B,Matrix - fern::Interval 0 码力 | 151 页 | 9.90 MB | 6 月前3
 Adventures in SIMD Thinking (Part 2 of 2)problems • Intra-register sorting • Fast linear median-of-seven filter • Fast small-kernel convolution • Faster (?) UTF-8 to UTF-32 conversion (with AVX2) • No heavy code, but lots of pictures • Small-Kernel Convolution 3 CppCon 2020 - Adventures in SIMD ThinkingCopyright © 2020 Bob Steagall K E W B C O M P U T I N G Convolution • f is a signal • g is a kernel • Output f*g is the convolution • Every CppCon 2020 - Adventures in SIMD Thinking 4Copyright © 2020 Bob Steagall K E W B C O M P U T I N G Convolution CppCon 2020 - Adventures in SIMD Thinking 5 S = s0 s1 s2 s3 s4 s5 s60 码力 | 135 页 | 551.08 KB | 6 月前3 Adventures in SIMD Thinking (Part 2 of 2)problems • Intra-register sorting • Fast linear median-of-seven filter • Fast small-kernel convolution • Faster (?) UTF-8 to UTF-32 conversion (with AVX2) • No heavy code, but lots of pictures • Small-Kernel Convolution 3 CppCon 2020 - Adventures in SIMD ThinkingCopyright © 2020 Bob Steagall K E W B C O M P U T I N G Convolution • f is a signal • g is a kernel • Output f*g is the convolution • Every CppCon 2020 - Adventures in SIMD Thinking 4Copyright © 2020 Bob Steagall K E W B C O M P U T I N G Convolution CppCon 2020 - Adventures in SIMD Thinking 5 S = s0 s1 s2 s3 s4 s5 s60 码力 | 135 页 | 551.08 KB | 6 月前3
 PyConChina2022-杭州-ARM芯片的Python+AI算力优化-朱宏林of deep learning, Pete Warden Convolution • AlexNet 模型推理各个层计算比例 • 86.1% • 2.6% 来源: Learning Semantic Image Representations at a Large Scale, Yangqing Jia Convolution • ResNet-50 • PyTorch Profiler0 码力 | 24 页 | 4.00 MB | 1 年前3 PyConChina2022-杭州-ARM芯片的Python+AI算力优化-朱宏林of deep learning, Pete Warden Convolution • AlexNet 模型推理各个层计算比例 • 86.1% • 2.6% 来源: Learning Semantic Image Representations at a Large Scale, Yangqing Jia Convolution • ResNet-50 • PyTorch Profiler0 码力 | 24 页 | 4.00 MB | 1 年前3
 C++高性能并行编程与优化 -  课件 - 08 CUDA 开启的 GPU 编程如果你试图分离声明和定义,调用另一个文件里 的 __device__ 或 __global__ 函数,就会出错 。 分离 __device__ 函数的声明和定义:解决 • 开启 CMAKE_CUDA_SEPARABLE_COMPILATION 选 项(设为 ON ),即可启用分离声明和定义的支持。 • 不过我还是建议把要相互调用的 __device__ 函数放在 同一个文件,这样方便编译器自动内联优化(第四课讲 glDispatchComputeIndirect 的 API 和这个很像,但毕竟没有 CUDA 可以直接在核函数里调用核函数并指定参数这么方便…… 不过,这个功能同样需要开启 CUDA_SEPARABLE_COMPILATION 。 第 2 章:内存管理 如何从核函数里返回数据? • 我们试着把 kernel 的返回类型声明为 int ,试 图从 GPU 返回数据到 CPU 。 • 但发现这样做会在编译期出错,为什么?0 码力 | 142 页 | 13.52 MB | 1 年前3 C++高性能并行编程与优化 -  课件 - 08 CUDA 开启的 GPU 编程如果你试图分离声明和定义,调用另一个文件里 的 __device__ 或 __global__ 函数,就会出错 。 分离 __device__ 函数的声明和定义:解决 • 开启 CMAKE_CUDA_SEPARABLE_COMPILATION 选 项(设为 ON ),即可启用分离声明和定义的支持。 • 不过我还是建议把要相互调用的 __device__ 函数放在 同一个文件,这样方便编译器自动内联优化(第四课讲 glDispatchComputeIndirect 的 API 和这个很像,但毕竟没有 CUDA 可以直接在核函数里调用核函数并指定参数这么方便…… 不过,这个功能同样需要开启 CUDA_SEPARABLE_COMPILATION 。 第 2 章:内存管理 如何从核函数里返回数据? • 我们试着把 kernel 的返回类型声明为 int ,试 图从 GPU 返回数据到 CPU 。 • 但发现这样做会在编译期出错,为什么?0 码力 | 142 页 | 13.52 MB | 1 年前3
 Swift for TensorFlow - 莲叔Given new coordinates, can we predict whether it’s clean or not? Analysis • Firstly it’s linear separable. • To begin with we need to find a line L. Assume there is x0 which always equals 1 Line (X)0 码力 | 56 页 | 3.03 MB | 1 年前3 Swift for TensorFlow - 莲叔Given new coordinates, can we predict whether it’s clean or not? Analysis • Firstly it’s linear separable. • To begin with we need to find a line L. Assume there is x0 which always equals 1 Line (X)0 码力 | 56 页 | 3.03 MB | 1 年前3
 07 FPGA 助力Python加速计算 陈志勇depth Sobel Warp Perspective OTSU Thresholding Arithmetic addition Table lookup Custom convolution Fast corner Mean Shift Tracking (MST) Arithmetic subtraction Histogram LK Dense Optical Flow0 码力 | 34 页 | 6.89 MB | 1 年前3 07 FPGA 助力Python加速计算 陈志勇depth Sobel Warp Perspective OTSU Thresholding Arithmetic addition Table lookup Custom convolution Fast corner Mean Shift Tracking (MST) Arithmetic subtraction Histogram LK Dense Optical Flow0 码力 | 34 页 | 6.89 MB | 1 年前3
 2_FPGA助力Python加速计算_陈志勇depth Sobel Warp Perspective OTSU Thresholding Arithmetic addition Table lookup Custom convolution Fast corner Mean Shift Tracking (MST) Arithmetic subtraction Histogram LK Dense Optical Flow0 码力 | 33 页 | 8.99 MB | 1 年前3 2_FPGA助力Python加速计算_陈志勇depth Sobel Warp Perspective OTSU Thresholding Arithmetic addition Table lookup Custom convolution Fast corner Mean Shift Tracking (MST) Arithmetic subtraction Histogram LK Dense Optical Flow0 码力 | 33 页 | 8.99 MB | 1 年前3
 FPGA助力Python加速计算 陈志勇 depth Sobel Warp Perspective OTSU Thresholding Arithmetic addition Table lookup Custom convolution Fast corner Mean Shift Tracking (MST) Arithmetic subtraction Histogram LK Dense Optical Flow0 码力 | 34 页 | 4.19 MB | 1 年前3 FPGA助力Python加速计算 陈志勇 depth Sobel Warp Perspective OTSU Thresholding Arithmetic addition Table lookup Custom convolution Fast corner Mean Shift Tracking (MST) Arithmetic subtraction Histogram LK Dense Optical Flow0 码力 | 34 页 | 4.19 MB | 1 年前3
 2020美团技术年货 算法篇CNN)是一种多层 CNN 网络,其中低层卷积使用普通卷积操作,通过滑动窗口圈定 的位置进行加权求和得到卷积结果,此时滑动窗口圈定的各个位置的距离间隔等于 1。高层卷积使用膨胀卷积(Atrous Convolution)操作,滑动窗口圈定的各个位置的 距离间隔等于 d(d>1)。通过在高层使用膨胀卷积可以减少卷积计算量,同时在序列 依赖计算上也不会有损失。在文本挖掘中,IDCNN 常用于对 LSTM 进行替换。实验 之间也具有一定的联系,所 以图结构对于保留序列的长期依赖性具有有限的能力。相反,对于时序卷积 神经网络(TCN)[5] 模型,Causal Convolution 使当前 item 的接受域中的 items 都可以直接作为一阶邻居进行卷积,并且具有的 Dilated Convolution 使得较远的 items 也可以直接作为一阶邻居对其产生影响。 算法 < 281 图 2 图结构对于序列数据的建模示意图0 码力 | 317 页 | 16.57 MB | 1 年前3 2020美团技术年货 算法篇CNN)是一种多层 CNN 网络,其中低层卷积使用普通卷积操作,通过滑动窗口圈定 的位置进行加权求和得到卷积结果,此时滑动窗口圈定的各个位置的距离间隔等于 1。高层卷积使用膨胀卷积(Atrous Convolution)操作,滑动窗口圈定的各个位置的 距离间隔等于 d(d>1)。通过在高层使用膨胀卷积可以减少卷积计算量,同时在序列 依赖计算上也不会有损失。在文本挖掘中,IDCNN 常用于对 LSTM 进行替换。实验 之间也具有一定的联系,所 以图结构对于保留序列的长期依赖性具有有限的能力。相反,对于时序卷积 神经网络(TCN)[5] 模型,Causal Convolution 使当前 item 的接受域中的 items 都可以直接作为一阶邻居进行卷积,并且具有的 Dilated Convolution 使得较远的 items 也可以直接作为一阶邻居对其产生影响。 算法 < 281 图 2 图结构对于序列数据的建模示意图0 码力 | 317 页 | 16.57 MB | 1 年前3
共 33 条
- 1
- 2
- 3
- 4













