Hadoop 概述决方案来审查当前的数据方法以及日渐增长的供应商阵营是一种非 Hadoop 大数据解决方案 10 常好的方法。借助这些服务和工具,Hadoop 生态系统将继续发展, 并清除分析处理和管理大数据湖中的一些障碍。通过使用本章中讨 论的一些工具和服务,Hadoop 即可集成到数据生态系统的层次结 构中。 Horton 数据平台(Horton Data Platform,HDP)是一个生态系统。 HDP 好地集成,创造出轻松分析这些大规模商业信息的独特方式。 访问数据 数据库、数据仓库 POWER CENTER Power Exchange 预处理 抽取数据 Web 服务器 批处理 消息队列、电子邮件、 社交媒介 大型主机 实时 图 1-6 这并不意味着 Hadoop 或者其他数据平台的解决方案无法在非 Windows 环境下运行。你应该细心检查现有的或者计划使用的环境 换为具有可操作性的信息来驱动商业价值。 例如,现代的数据架构正在越来越多地用于建造大型数据湖。 通过将数据管理服务集成为更大的数据湖,企业可以利用各种各样 的渠道来存储和处理大量数据,这些渠道包括社交媒体、点击流数 据、服务器日志、客户交易与交互、视频以及来自现场设备的传感 器数据。 Hortonworks 或者 Cloudera 数据平台,以及 Informatica,使得 企业能够优化0 码力 | 17 页 | 583.90 KB | 1 年前3
动手学深度学习 v2.012.2.1 通过后端异步处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 509 12.2.2 障碍器与阻塞器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511 12.2.3 改进计算 . 80486) 2000 10 M (网页) 100 MB 1 GF (Intel Core) 2010 10 G (广告) 1 GB 1 TF (Nvidia C2050) 2020 1 T (社交网络) 100 GB 1 PF (Nvidia DGX‐2) 很明显,随机存取存储器没有跟上数据增长的步伐。与此同时,算力的增长速度已经超过了现有数据的增长 速度。这意味着统计模型需要提高内存效 给定预测概率分布y_hat,当我们必须输出硬预测(hard prediction)时,我们通常选择预测概率最高的类。 许多应用都要求我们做出选择。如Gmail必须将电子邮件分类为“Primary(主要邮件)”、“Social(社交邮 件)”“Updates(更新邮件)”或“Forums(论坛邮件)”。Gmail做分类时可能在内部估计概率,但最终它必 须在类中选择一个。 当预测与标签分类y一致时,即是正确的。分类精度即正0 码力 | 797 页 | 29.45 MB | 1 年前3
谭国富:深度学习在图像审核的应用深度学习在图像审核的应用 腾讯优图实验室 谭国富 http://open.youtu.qq.com SACC2017 优图团队立足于社交网络大平台,借助社交业务积累 的海量人脸、图片、音乐等数据,专注在人脸、图像、 音乐、语音、机器学习等领域开展技术研究,并积极 推动研究成果在业务中落地产生价值。 关于优图实验室 人脸识别 图像识别 音频识别 SACC2017 目录 01 腾讯优图内容审核能力介绍 无版权人物识别 检索结果:奥巴马 相似度:98% 政治人物 不在黑名单 检索结果:林志玲 相似度:99% 在版权库 SACC2017 图片场景识别 l 社交图像分类应用:微云,相册管家 Ø 标签体系:面向社交领域的热词标签200余种, 涵盖人物、风景、人造物、 建筑、动植物、食物等9个大类 。 Ø 技术指标:20个类别平均准确率MAP>90%以上,200种MAP>63%以上,0 码力 | 32 页 | 5.17 MB | 1 年前3
第29 期| 2023 年9 月- 技术雷达部的贡献。产品为中心的思维方式还要求组织思考是否应该允许和怎样向设计系统做出贡献,以及如何管理这 些贡献——在这个话题上,我们推荐采用设计系统决策记录。对我们来说,维护一个良好的设计系统或组件库 不光是技术工作,也同样是社交工作。 2. 轻量级的 RFCs 方法 采纳 Request for Comments(RFC)是一种正式文档,其包含与上下文相关的设计和架构思想,以促进团队协作和 决策。几乎所有数字原生和快速扩张的组织都使用 随着微型博客平台领域的剧变,ActivityPub 协议逐渐名声鹊起。ActivityPub 是一个用于分享诸如帖子、出版 物和日期等信息的开放协议。它可以用来实现一个社交媒体平台,但其关键优势在于能够实现不同社交媒体平 台之间的协同工作能力。我们预计 ActivityPub 将在社交媒体领域扮演重要角色,但更加对其在其他领域可能 发挥的作用感到好奇。一个例子就是最近 GitLab 提出对合并请求增加 ActivityPub0 码力 | 43 页 | 2.76 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博微博Feed流排序场景介绍 目录 微博Feed流产品介绍—排序场景 Ø 信息获取方式 • 主动获取(关注) Ø 内容形式 • 博文/文章/图片/视频/问答/话题/… • 被动获取(推荐) Ø 微博—社交媒体领跑者 • DAU:1.72亿,MAU:3.92亿 • 关注流基于关系链接用户与内容 微博Feed流特点介绍—排序原因 Ø 产品特点 • 传播性强 Ø 存在问题 • 信息过载 • 关键词 类型属性 topic 内容标签 内容质量 内容特征 组合特征 标签匹配度 用户互动率 协同特征 实时互动率 app互动率 微博内容 关注数据 用户信息 视觉标签 打码日志 社交关系 用户特征 发博流 互动流 曝光流 模型服务 模型训练 模型优化 模型评估 模型预测 CTR预估 排序策略 权值映射 业务排序 其他策略 特征工程 特征存储 特征查询 实时数据0 码力 | 21 页 | 2.14 MB | 1 年前3
机器学习课程-温州大学-10机器学习-聚类百度是人们使用的搜索引擎之一。举个例子,当 我们搜索一些信息,如在某地的超市,百度将为 我们提供不同的超市的选择。这是聚类的结果, 提供给你的结果就是聚类的相似结果。 11 1.无监督学习方法概述 聚类案例 5.社交网络 比如在社交网络的分析上。已知你朋友的信息, 比如经常发email的联系人,或是你的微博好友、 微信的朋友圈,我们可运用聚类方法自动地给朋 友进行分组,做到让每组里的人们彼此都熟识。 12 20 码力 | 48 页 | 2.59 MB | 1 年前3
Service Mesh的实践分享IPTable性能不总是足够好 • 任何组件都有不可用的时候。客户端无论如何都要有自切换的能力和可 用的备份 • 尽量减少外部组件依赖。业务/运维总会有各种特殊的需求,依赖外部组 件会给自定义需求带来障碍。 • 保持客户端选择proxy的自由度和灵活性,在我们的实践中好处大 于坏处胖客户端 vs. service mesh vs. cluster 胖客户端 Sidecar(物理机) Daemonset(云)0 码力 | 30 页 | 4.80 MB | 6 月前3
27-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊架构的稳定性目标的实现。 Serverless化 极大地降低了开发人员,特别是服务于前端的后端开发人员的运维负担,亚秒级的容器启动 速度和单物理机千容器的部署密度降低了serverless应用的技术障碍。 OAM统一交付能力 基于OAM的软件交付理念和工具重新定义了内部的DevOps流程,实现了应用的“一键安装、多 处运行”的应用编排目标 AIOps精细化运维 依托于K8S和ServiceMesh0 码力 | 20 页 | 5.17 MB | 6 月前3
22-云原生的缘起、云原生底座、PaaS 以及 Service Mesh 等之道-高磊发展 由于历史遗留或者软件形态所限制,不可能所有的软件都可以被微服务化或被容器化,那么现在阶段来看,整个 数字化转型的一些困难就是处于在技术上的碎片化,为云原生彻底发挥对极端变化的适应性价值还有很多障碍。 在统一的K8s管理面下, 通过一种代理容器(内置 了管理虚拟机的逻辑) 来启动虚拟化Pod, 此时可以同时在统一的 容器云平台下运行微服 务化容器化或者未容器 化的传统软件了; 另一个方向是,将底层计0 码力 | 42 页 | 11.17 MB | 6 月前3
PyTorch OpenVINO 开发实战系列教程第一篇议参照英伟达官方网站的安装指导与开发者手册。 1.3 Pytorch 基础术语与概念 很多人开始学习深度学习框架面临的第一个问题就是专业术语 理解跟基本的编程概念与传统面向对象编程不一样,这个是初 学者面临的第一个学习障碍。在主流的面向对象编程语言中, 结构化代码最常见的关键字是 if、else、while、for 等关键字, 而在深度学习框架中编程模式主要是基于计算图、张量数据、 自动微分、优化器等组件构成。面向对象编程运行的结果是交0 码力 | 13 页 | 5.99 MB | 1 年前3
共 21 条
- 1
- 2
- 3













