【PyTorch深度学习-龙龙老师】-测试版202112和海量数据让大 规模神经网络的训练成为可能。 2006 年,Geoffrey Hinton 首次提出深度学习的概念。2012 年,8 层的深层神经网络 AlexNet 发布,并在图片识别竞赛中取得了巨大的性能提升,此后几十层、数百层、甚至 上千层的神经网络模型相继提出,展现出深层神经网络强大的学习能力。业界一般将利用 深层神经网络实现的算法称作深度学习,本质上神经网络和深度学习可认为是相同的。 现在 征方法的优劣性非常的关键,同时也比较困难。神经网络的出现,使得人为设计特征这一 部分工作可以让机器自动完成学习,不需要人类干预。但是浅层的神经网络的特征提取能 力较为有限,而深层的神经网络擅长提取高层、抽象的特征,因此具有更好的性能表现。 针对特定任务 的检测逻辑 输出逻辑 人为设计的 特征检测方法 输出逻辑 特征提取网络 (浅层) 输出子网络 底层特征提取 网络 中层特征提取 网络 高层特征提取 代表的传统机器学习算法兴起而逐渐进入低谷,称为人工智能的第二次寒冬。支持向量机 拥有严格的理论基础,训练需要的样本数量较少,同时也具有良好的泛化能力,相比之 下,神经网络理论基础欠缺,可解释性差,很难训练深层网络,性能也相对一般。图 1.8 绘制了 1943 年~2006 年之间的重大时间节点。 ① 图片来自 https://slideplayer.com/slide/12771753/ ② 图片来自0 码力 | 439 页 | 29.91 MB | 1 年前3
谭国富:深度学习在图像审核的应用Ø 上亿级别的人脸检索,秒级的检索速度从黑名 单,白名单数据库中返回目标人脸信息。 Ø 技术指标:优图人脸识别通过传统方法和深度 学习技术结合,以空间面孔墙和微众银行远程 核身为基础,在性能上达到LFW 99.80%。 Ø QQ,微云等: 非法设置领导人头像, 公众人 物, 明星等等他人肖像。 Ø 直播,游戏视频等, 非法植入领导人,政府国 际公众人物, 明星等等。 l 人脸识别核身技术 Ø 标签体系:面向社交领域的热词标签200余种, 涵盖人物、风景、人造物、 建筑、动植物、食物等9个大类 。 Ø 技术指标:20个类别平均准确率MAP>90%以上,200种MAP>63%以上, 性能CPU上约200ms/张。 微云相册,相册管家 识别标签效果 Ø 微云,相册管家新版本推出智能全自动图片分类,通过上百 种常用图片标签,实现对所有照片的自动识别分类。 Ø 用户上传图片之后即可被智能分类,各大类下包括小类如人 GDDR5X GDDR5 HBM2 显存位宽 384-bit 384-bit 4096-bit 显存带宽 480 GB/s 346 GB/s 900GB/s 显存容量 12GB 24GB 16G 性能 FP32 (TFLOPS) 10.6 12 14 FP16 (TFLOPS) NA NA 113 Tensor (TFLOPS) NA NA 112 TDP 250W 250W 250W 预算多V100,0 码力 | 32 页 | 5.17 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待 • Kafka 堆积监控,实时报警 • 如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理 • 自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练:Flink/Blink+WeiPS 模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(B 待部署模型与线上模型进行指标对比,评估是否满足上线条件 • 一键部署 • 基于K8S的deployment模式,一键端口分配与模型服务部署 • 基于ZK的服务发现,一键进行流量灰度与发布 • 性能优化 • 通信优化:特征请求与模型计算单元化,在线样本格式压缩 • 计算优化:基于SSE/AVX 指令优化 3 在线机器学习-模型服务部署 • 模型更新频次效果对比 • FM:数据越新,效果越好0 码力 | 36 页 | 16.69 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒AI+智慧城市 2015-2017 l单机、简易分布式人脸检测、跟踪、比对平台 l处理数十路到数百路监控摄像头数据 l千万级别深度学习特征检索 l行业试水 2018-2019 l云原生Cloud-Native超大规模视图存储、处理、检 索 l处理数万到数十万路,城市范围级别监控、门禁摄 像头数据 l10-100 Billion级别深度学习特征检索 - PB以上级别数据库存储 - 深度学习算法在产品应用中的挑战 • 深度学习算法也需要“深度”学习业务需求 - 处理特殊输入,如模糊、黑白照片 - 适配具有不同特征的数据源 - 在严肃应用中,客户追求100%准确率,算法性能提升永无止境 • 深度学习模型需要在准确率和速度上做均衡 - 使用更加精巧的模型和Operator设计 - 使用模型压缩算法,在基本保障准确率的情况下大幅提升速度 - 利用最新的硬件特性,如GPU scheduling Go语言在高性能系统中的实践经验 • 为什么用Go - 比起C++,更易于实践各种并发模式 - 比起Java,更加简洁,更易于与C/C++交互 - 比起脚本语言,类型和内存安全,保证重构效率与产品质量 - 完善的配套工具,如go test, gofmt, go lint, race-detector Go语言在高性能系统中的实践经验 • Go在开发高性能应用上也有一些不足,0 码力 | 23 页 | 9.26 MB | 1 年前3
阿里云上深度学习建模实践-程孟力Swin Retrieval Image Generation Video Caption EasyVision: 图像视频算法库 Bert TextInput Optim izer 性能优越: 分布式存储 分布式查询 功能完备: GSL/负采样 主流图算法 异构图 (user/item/attribute) 动态图 标准化: Standard Libraries 推荐引擎 PAI-REC 推荐引擎 多路召回 曝光/状态过滤 粗排/精排 策略[类目打散、流量控制、…] 实时采集后端日志 PAI-REC 配置中心 AB实验 实验工具 拉取配置 监控报警 Prometheus Grafana 读取metric 消息队列(datahub/kafka) PAI-REC平台 自动化降级 负载均衡 灰度发布 超时控制 平台支持 日志SLS 千亿特征 3. 工程优化 RingAllReduce + 层级级联 EasyVision 多机多卡性能对比 工程优化: 数据并行 M6模型 Transformer模型: RapidFormer 人脸分类模型: 超大softmax 3D卷积模型 M6模型 RapidFormer性能 工程优化: 模型并行(Whale) FP16 / Int8 模型剪枝 Op融合(Fusion0 码力 | 40 页 | 8.51 MB | 1 年前3
AI大模型千问 qwen 中文文档You can refer to that document for more information. 1.4.4 PPL 评测 llama.cpp 为我们提供了评估 GGUF 模型 PPL 性能的方法。为了实现这一点,你需要准备一个数据集,比如 “wiki 测试”。这里我们展示了一个运行测试的例子。 第一步,下载数据集: wget https://s3.amazonaws.com/research 对于 requirements 中的 bitsandbytes 和 llama-cpp-python ,我建议您直接通过 pip 进行安装。但 是,暂时请不要使用 GGUF,因为其与 TGW 配合时的性能表现不佳。在完成所需包的安装之后,您需要 准备模型,将模型文件或目录放在 “./models“文件夹中。例如,您应按照以下方式将 “transformers“模型目录 Qwen1.5-7B-Chat 的服务规模非常容易,只需运行: sky serve up -n qwen ./serve-72b.yaml 这将启动服务,使用多个副本部署在最经济的可用位置和加速器上。SkyServe 将自动管理这些副本,监控其 健康状况,根据负载进行自动伸缩,并在必要时重启它们。 将返回一个 endpoint,所有发送至该 endpoint 的请求都将被路由至就绪状态的副本。 2. 运行如下命令检查服务的状态: sky0 码力 | 56 页 | 835.78 KB | 1 年前3
动手学深度学习 v2.0策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497 12 计算性能 503 12.1 编译器和解释器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 帮助读者快速了解大多数现代深度学习应用背后的基本工具。 • 第三部分讨论可伸缩性、效率和应用程序。首先,在 11节 中,我们讨论了用于训练深度学习模型的几 种常用优化算法。下一章 12节 将探讨影响深度学习代码计算性能的几个关键因素。在 13节 中,我们展 示了深度学习在计算机视觉中的主要应用。在 14节 和 15节 中,我们展示了如何预训练语言表示模型并 将其应用于自然语言处理任务。 4 目录 代码 案的任务,这其中的计算也超出了人类意识理解范畴。机器学习(machine learning,ML)是一类强大的可 以从经验中学习的技术。通常采用观测数据或与环境交互的形式,机器学习算法会积累更多的经验,其性能 17 也会逐步提高。相反,对于刚刚所说的电子商务平台,如果它一直执行相同的业务逻辑,无论积累多少经验, 都不会自动提高,除非开发人员认识到问题并更新软件。本书将带读者开启机器学习之旅,并特别关注深度0 码力 | 797 页 | 29.45 MB | 1 年前3
经典算法与人工智能在外卖物流调度中的应用当前配送的繁忙程度 • 天气情况.. 1 2 3 提纲 4 外卖订单的智能 调度系统 一. 智能调度系统的 大数据分析监控 二. 智能调度系统中 的人工智能 三. 提纲 5 外卖订单的智能 调度系统 一. 智能调度系统的 大数据分析监控 二. 智能调度系统中 的人工智能 三. 外卖订单智能调度系统发展历程 6 人工派单模式 • 调度员根据订单地址和骑士 位置来进行订单分配 1 2 3 4 5 提纲 16 外卖订单的智能 调度系统 一. 智能调度系统的 大数据分析监控 二. 智能调度系统中 的人工智能 三. 调度系统 智能调度系统的分析监控 17 • 真实再现调度场景细节 • 回溯定位异常调度原因,诊断调试算法 • 实时获取调度监控指标 • 及时预警引入人工干预 • 精准模拟实际订单分布情况 • 有效评估调度算法的改进效果 • 合理划分物流范围 节省调度运力,提升商户配送能力 • 云端虚拟队列,实现调度指派 • 提升物流效率 仿真系统 实时监控 时光机 寻宝系统 1 2 3 4 5 时光机系统—历史数据可视化分析 真实再现调度场景细节 回溯定位异常调度原因,诊断调试算法 18 1 实时监控系统—当前状况实时监控 19 实时获取调度监控指标 及时预警引入人工干预 2 仿真系统—未来效果仿真预测 订单 在岗骑 士数量0 码力 | 28 页 | 6.86 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言出农业机械穿过作物的最佳路径。另 外也可用来识别杂草和作物,有效减 少除草剂的使用量。 制造业 计算机视觉也可以帮助制造商更安 全、更智能、更有效地运行,比如预 测性维护设备故障,对包装和产品质 量进行监控,并通过计算机视觉减少 不合格产品。 交通 自动驾驶汽车需要计算机视觉。特斯拉 (Tesla)、宝马(BMW)、沃尔沃(Volvo)和奥迪 (Audi)等汽车制造商Y已经通过摄像头、激光0 码力 | 80 页 | 5.38 MB | 1 年前3
机器学习课程-温州大学-特征工程中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读 定义 目的 作用 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用 构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择 特征工程相关概念 1. 相关概念 5 通过这张图可以看出,各种不 同算法在输入的数据量达到一 特征选择 26 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 模型性能 • 保留尽可能多的特征,模型 的性能会提升 • 但同时模型就变复杂,计算 复杂度也同样提升 计算复杂度 • 剔除尽可能多的特征,模型的 性能会有所下降 • 但模型就变简单,也就降低计 算复杂度 VS 4. 特征选择 27 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J] 过滤式(Filter): 先对数据集进行特征选择,其过程与后续 学习器无关,即设计一些统计量来过滤特 征,并不考虑后续学习器问题 包裹式(Wrapper): 就是一个分类器,它是将后续的学习器的 性能作为特征子集的评价标准 嵌入式(Embedding): 是学习器自主选择特征 4. 特征选择 特征选择的三种方法 28 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究0 码力 | 38 页 | 1.28 MB | 1 年前3
共 31 条
- 1
- 2
- 3
- 4













