构建基于富媒体大数据的弹性深度学习计算平台构建基于富媒体大数据的弹性深度学 习计算平台 SPEAKER / 土土@七牛 AtLab Mobile —> 富媒体时代 数据存储 数据加速 数据处理 直播 点播 Connect 每天超过10亿图像上传 超过万亿小时的音视频存储 What are they? 内容审核团队 运营分析团队 AI? Content 分类 检测 分割 跟踪 描述 搜索 分析 … 描述:事件1-XXXX 事件2-XXXX 人物出现:id1, id2 场景二 … 用户行 为 用户数 据 推理结 果 推理服务 数据抽样 和整理 样本 训练 模型 模型评估 AVA深度学习平台 Caching IO Distributed System Docker Orchestration Storage HDFS SQL NoSQL Caffe MXNet Tensorflow0 码力 | 21 页 | 1.71 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波微博在线机器学习和深度学习实践 黄波 @黄波_WB 资深技术专家 2019.5 目录 1.推荐篇 2.平台篇 3.总结篇 1 目录 • 推荐场景 • 推荐 • 在线机器学习 • 深度学习 • 平台背景 • 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态 推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • 视频推荐流 1 推荐场景 • 推荐 • 在特定场景下,根据用户行为和特点,向用户推荐感兴趣的对象集 • 模型: • 趋势 • 实时化:在线机器学习 • 深度化:深度学习 • 平台化:机器学习平台 2 推荐 • 实时化 • 特征实时化:更及时反馈用户行为,更细粒度刻画用户 • 模型实时化:根据线上样本实时训练模型,及时地反映对象的线上变化 模型推理 预测服务 实时特征 实时数据 Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练:Flink/Blink+WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 2.标签UDF 3.样本过滤 4.特征过滤 模型训练 1.支持回归和分类 2.支持LR、FM、 DeepFM等模型 3.支持SGD 、 FTRL 、 Adagrad等优化算法0 码力 | 36 页 | 16.69 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112有监督学习 有监督学习的数据集包含了样本?与样本的标签?,算法模型需要学习到 映射关系??: ? → ?,其中??代表模型函数,?为模型的参数。在训练时,通过计算模型的预 测值??(?)与真实标签?之间的误差来优化网络参数?,使得网络下一次能够预测更精准。常 见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。 无监督学习 收集带标签的数据往往代价较为昂贵,对于只有样本?的数据集,算法需 年,DeepMind 公司应用深度 神经网络到强化学习领域,提出了 DQN 算法,在 Atari 游戏平台中的 49 个游戏上取得了 与人类相当甚至超越人类的水平;在围棋领域,DeepMind 提出的 AlphaGo 和 AlphaGo Zero 智能程序相继打败人类顶级围棋专家李世石、柯洁等;在多智能体协作的 Dota2 游戏 平台,OpenAI 开发的 OpenAI Five 智能程序在受限游戏环境中打败了 TI8 14197122 张图片,整个数据集的压缩文件大小就有 154GB。图 1.10、图 1.11 列举了一些数据集的样本数和数据集大小随时间的变化趋势。 尽管深度学习对数据集需求较高,收集数据,尤其是收集带标签的数据,往往是代价 昂贵的。数据集的形成通常需要手动采集、爬取原始数据,并清洗掉无效样本,再通过人 类智能去标注数据样本,因此不可避免地引入主观偏差和随机误差。研究数据量需求较少 的算法模型是非常有用的一个方向。0 码力 | 439 页 | 29.91 MB | 1 年前3
谭国富:深度学习在图像审核的应用深度学习在图像审核的应用 腾讯优图实验室 谭国富 http://open.youtu.qq.com SACC2017 优图团队立足于社交网络大平台,借助社交业务积累 的海量人脸、图片、音乐等数据,专注在人脸、图像、 音乐、语音、机器学习等领域开展技术研究,并积极 推动研究成果在业务中落地产生价值。 关于优图实验室 人脸识别 图像识别 音频识别 SACC2017 目录 01 腾讯优图内容审核能力介绍 直播行业的快速兴起,使得视频中不良信 息含量更加迅猛增长,色情暴力等不雅视 频频繁流出,导致各网络直播平台面临危 机。 Ø 内容监管日趋严格, 2017年上半年,各 大直播行业协会相应成立,行业平台自我 规范的同时,网信办、文化部等国家部门 对于直播行业监管也越发严格,几乎所有 知名的直播平台均被有关部门点名查处过, 特别2017 年月中旬,黄鳝事件引爆网络, 让色情直播再度被推上舆论浪尖。 完备 节约成本 节省审核 人力 减少人工 漏审 技术诉求:自动识别图片或视频中出现的文 字、二维码、logo等内容以及违规人像、淫 秽、血腥、暴力、极端主义、恐怖主义图像 等,方便平台进行违规处理和风险管控。 业务痛点:面对越来越爆发的安全风险,解决办法门 槛高, 成本高;迫切需要技术解决方案 SACC2017 图像内容审核技术 OCR技术 图像分割以及超分辨率技术0 码力 | 32 页 | 5.17 MB | 1 年前3
华为云深度学习在文本分类中的实践-李明磊输入 文本 模型训练 模型部署 评测 label 预测标签 词袋 TFIDF Ngram 词典 … 卡方 PCA 互信息 RFE … 分类器 SVM LR XGBoost 随机森林 … 6 文本分类方法简史-深度学习 输入 文本 模型训练 模型部署 评测 label 预测标签 RNN CNN LSTM DCNN Attention 9 0.95 人工标注 系统标注 效果:F1 未标注集合 ???????????? ???????????? 种子语料 机器学习模型 人工标注 15 华为云主动学习平台 16 华为云主动学习平台 17 1 2 4 3 分类 算法 简史 深度 学习 架构 难点 应用 案例 目录 18 情感分析 0.00% 20.00% 40.00% 60.00% 800 码力 | 23 页 | 1.80 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言Error)作为模型评估的标准。 测试误差的具体定义为:????? = 1 ?′ ?=1 ?′ L ??, መ? ?? 其中,?′为测试数据数量,L(??, መ?(??))是损失函数,??代表真实标签, መ?(??)代表 预测标签。 一般来说,若我们模型学习的效果好,则训练误差和测试误差接近一致。 27 3. 机器学习的背景知识 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 Python模块-Pandas ⚫ 数据索引 df[5:10] 通过切片方式选取多行 df[col_label] or df.col_label 选取列 df.loc[row_label, col_label] 通过标签选取行/列 df.iloc[row_loc, col_loc] 通过位置(自然数)选取行/列 65 Python模块-Pandas ⚫ 数据合并 pd.merge(left, right) scipy.stats 统计函数 69 Python模块-Matplotlib ⚫Matplotlib Matplotlib 是一个 Python 的 2D绘图库,它以各种硬拷贝格 式和跨平台的交互式环境生成 出版质量级别的图形 。 通过 Matplotlib,开发者可以 仅需要几行代码,便可以生成 绘图,直方图,功率谱,条形 图,错误图,散点图等。 https://matplotlib0 码力 | 78 页 | 3.69 MB | 1 年前3
阿里云上深度学习建模实践-程孟力阿里云深度学习实践 程孟力 花名: 杨熙 阿里巴巴-计算平台-PAI 个性化推荐 视频理解 智能对话系统 图像检索 更多场景 OCR识别 人脸核身 智能风控 自动驾驶 语音助手 • • • 优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … ) 深度学习应用场景 沙漠 湖泊 旅行 深度学习应用主要的挑战: 2.模型效果优 化困难 SDK/API 多语言、国际化 多种证件版式 准确率领先同类产品 集成方便 标准化: Standard Solutions 智能推荐解决方案: 推荐请求 PAI-Studio–建模平台 召 回 模 型 EasyRec GraphLearn Alink 排 序 模 型 模型训练评估 PAI-EAS – 模型推理 model1 model2 … PAI-ABTest AB实验 实验工具 拉取配置 监控报警 Prometheus Grafana 读取metric 消息队列(datahub/kafka) PAI-REC平台 自动化降级 负载均衡 灰度发布 超时控制 平台支持 日志SLS 在线存储 Hologres/OTS BE Redis 读取数据 向量引擎 BE/Hologres/Faiss/Milvus 向量检索0 码力 | 40 页 | 8.51 MB | 1 年前3
Keras: 基于 Python 的深度学习库及的次数位居第二。Keras 还被大型科学组织的研究人员采用,特别是 CERN 和 NASA。 2.3 Keras 可以轻松将模型转化为产品 与任何其他深度学习框架相比,你的 Keras 模型可以轻松部署在更广泛的平台上: • 在 iOS 上,通过 Apple’s CoreML(苹果为 Keras 提供官方支持)。这里有一个教程。 • 在安卓上,通过 TensorFlow Android runtime,例如:Not TensorFlow 后端 • 微软的 CNTK 后端 • Theano 后端 亚马逊也正在为 Keras 开发 MXNet 后端。 如此一来,你的 Keras 模型可以在 CPU 之外的不同硬件平台上训练: • NVIDIA GPU。 • Google TPU,通过 TensorFlow 后端和 Google Cloud。 • OpenGL 支持的 GPU, 比如 AMD, 通过 PlaidML compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy', mean_pred]) 3.1.4 训练 Keras 模型在输入数据和标签的 Numpy 矩阵上进行训练。为了训练一个模型,你通常会使 用 fit 函数。文档详见此处。 # 对于具有 2 个类的单输入模型(二进制分类): 快速开始 10 model = Sequential()0 码力 | 257 页 | 1.19 MB | 1 年前3
动手学深度学习 v2.0ine learning,ML)是一类强大的可 以从经验中学习的技术。通常采用观测数据或与环境交互的形式,机器学习算法会积累更多的经验,其性能 17 也会逐步提高。相反,对于刚刚所说的电子商务平台,如果它一直执行相同的业务逻辑,无论积累多少经验, 都不会自动提高,除非开发人员认识到问题并更新软件。本书将带读者开启机器学习之旅,并特别关注深度 学习(deep learning,DL)的基础 有“智能”; 2. 获取一些数据样本(例如,音频片段以及对应的是或否标签); 3. 调整参数,使模型在这些样本中表现得更好; 4. 重复第(2)步和第(3)步,直到模型在任务中的表现令人满意。 图1.1.2: 一个典型的训练过程 总而言之,我们没有编写唤醒词识别器,而是编写了一个“学习”程序。如果我们用一个巨大的带标签的数 据集,它很可能可以“学习”识别唤醒词。这种“通过用数据集来确定程序行为”的方法可以被看作用数据 instance),通常每个样本由一组称为特征(features,或协变量(covariates)) 的属性组成。机器学习模型会根据这些属性进行预测。在上面的监督学习问题中,要预测的是一个特殊的属 性,它被称为标签(label,或目标(target))。 当处理图像数据时,每一张单独的照片即为一个样本,它的特征由每个像素数值的有序列表表示。比如, 200 × 200彩色照片由200 × 200 × 3 =0 码力 | 797 页 | 29.45 MB | 1 年前3
《TensorFlow 2项目进阶实战》3-方案设计篇:如何设计可落地的AI解决方案AI 通用物品识别平台架构 品 识 AI 中 台 AI 算法库 AI 核心模块 AI 行业模型 数据集 模型训练 模型管理 AutoML AI 物品库 服务管理 模型压缩 棚格图识别 货架巡检 商品推荐 陈列审核 入库审计 货物盘点 构件识别 CAD解析 规则审查 户型图识别 视频盘点 自动分拣 细粒度识别 目标检测 多目标跟踪 多标签分类 规 则 引 引 擎 数 据 沉 淀 服 务 监 控 快速消费品 建筑图纸 五金零配件 医疗器件 库码标签 零售百货 通用OCR 空间分割 商品识别 AI + 业务 流水线 扫码试看/订阅 《 TensorFlow 2项目进阶实战》视频课程0 码力 | 49 页 | 12.50 MB | 1 年前3
共 43 条
- 1
- 2
- 3
- 4
- 5













