积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(10)Hadoop(10)

语言

全部中文(简体)(8)西班牙语(1)中文(繁体)(1)

格式

全部PDF文档 PDF(10)
 
本次搜索耗时 0.017 秒,为您找到相关结果约 10 个.
  • 全部
  • 云计算&大数据
  • Hadoop
  • 全部
  • 中文(简体)
  • 西班牙语
  • 中文(繁体)
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    Hadoop 迁移到阿里云 MaxCompute 技术方案 (V2.8.5) 编写人:MaxCompute 产品团队 日 期:2019.05 Alibaba Cloud MaxCompute 解决方案 2 目录 1 概要 .................................. .............. 6 2 阿里云大数据与开源生态对比 .................................................................................................................. 7 2.1 Hadoop 及开源生态与阿里云大数据生态对比 ................ ..................... 8 2.1.3 阿里云大数据组件架构 ......................................................................................................... 9 2.1.4 阿里云大数据与 Hadoop 生态的产品映射 ................
    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
  • pdf文档 大数据时代的Intel之Hadoop

    挃数据集的大小超过了现有典型的数据库软件和工具的处理能力。不此同时,及时捕捉、 存储、聚合、管理这些大数据以及对数据的深度分析的新技术和新能力,正在快速增长,就像预 测计算芯片增长速度的摩尔定律一样。 — McKinsey Global Institute 统计和报表 价值 数据挖掘和预测性分析 大数据时代的Intel • Intel的角色 • Intel Hadoop商业发行版 • 优 化和创新 • 推迚终端设备和传感器的智能化,构建亏联、可管理的和 安全的分布式架构 软硬结合 Intel Hadoop商业发行版 优化的大数据处理软件栈 稳定的企业级hadoop发行版 利用硬件新技术迚行优化 HBase改迚和创新,为Hadoop提供实时数据处理能力 针对行业的功能增强,应对丌同行业的大数据挑戓 Hive 0.9.0 交互式数据仓库 安装、部署、配置、监控、告警和访问控制 Zookeeper 3.4.4 分布式协作服务 Pig 0.9.2 数据流处理语言 Mahout 0.6 数据挖掘 HBase 0.94.1 实时、分布式、高维数据库 Map/Reduce 1.0.3 分布式计算框架 HDFS 1.0.3 分布式文件系统 R 统计语言 Intel Hadoop Manager – 安装、配置、管理、监控、告警
    0 码力 | 36 页 | 2.50 MB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(入门)

    2)2001年年底Lucene成为Apache基金会的一个子项目。 3)对于海量数据的场景,Lucene框架面对与Google同样的困难,存储海量数据困难,检索海量速度慢。 4)学习和模仿Google解决这些问题的办法 :微型版Nutch。 5)可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文) GFS --->HDFS Map-Reduce --->MR BigTable --->HBase 也加盟 Cloudera 公司。Cloudera 产品主 要为 CDH,Cloudera Manager,Cloudera Support (3)CDH 是 Cloudera 的 Hadoop 发行版,完全开源,比 Apache Hadoop 在兼容性,安 全性,稳定性上有所增强。Cloudera 的标价为每年每个节点 10000 美元。 (4)Cloudera Manager 是集群的软件 MapTask SecondaryNa meNode 1.6 大数据技术生态体系 大数据技术生态体系 数据库(结构化数据) 文件日志(半结构化数据) 视频、ppt等(非结构化数据) Sqoop数据传递 Flume日志收集 Kafka消息队列 HDFS文件存储 HBase非关系型数据库 YARN资源管理 MapReduce离线计算 Spark Core内存计算 Hive 数据查询
    0 码力 | 35 页 | 1.70 MB | 1 年前
    3
  • pdf文档 大数据集成与Hadoop - IBM

    卸载下来,以便降低成本并改善查询 服务水平协议 (SLA)。该用例会引发以下问题: • 企业是否应卸载EDW中的所有ETL工作负载? • 是否应将所有大数据集成工作负载都推送到Hadoop? • 在没有并行关系数据库管理系统 (RDBMS) 和Hadoop 的情况下,大数据集成工作负载在ETL网格中发挥怎样 的持续作用? 这些问题的正确答案取决于企业独特的大数据需求。企业可以 选择并行RDBMS、Hadoop和可扩展的ETL网格来运行大数据 图3)。 在ETL网格中运行 在数据库中运行 在Hadoop中运行 图3. 大数据集成需要一种可利用任何环境优势的平衡方法。 优点 • 利用ETL MPP引擎 • 利用商业硬件和存储 • 利用网格整合 SMP 服务器 • 执行无法推送到RDBMS的复 杂转换(数据清理) • 释放RDBMS服务器上的容量 • 处理异构数据源(未存储到 数据库中) • ETL服务器可以较快地执行某 ETL服务器在执行某些流程时 速度较慢(数据已经存储到 关系表中) • 可能需要额外的硬件(低成 本硬件) 优点 • 利用数据库MPP引擎 • 将数据移动降至最低限度 • 利用数据库执行加入/聚合 • 清除数据后效果最佳 • 释放ETL服务器上的计算周期 • 利用RDBMS服务器的多余容量 • 数据库可以较快地执行某些 流程 缺点 • 硬件和存储费用昂贵 • 查询SLA出现降级 • 并非所有ETL逻辑均可推送到
    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
  • pdf文档 Hadoop 概述

    oKeeper 和 Hive 的角色 ● Hadoop 与其他系统的集成 ● 数据集成与 Hadoop Hadoop 是一种用于管理大数据的基本工具。这种工具满足了企 业在大型数据库(在 Hadoop 中亦称为数据湖)管理方面日益增长的 需求。当涉及数据时,企业中最大的需求便是可扩展能力。科技和 商业促使各种组织收集越来越多的数据,而这也增加了高效管理这 些数据的需求。本章探讨 znode),使得分布式进程相互协调工作。 每个 znode 都由一个路径来标识,路径元素由斜杠(/)分隔。 还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受 益。虽然 Hadoop 并不被认为是一种关系型数据库管理系统 (RDBMS),但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起 工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。 我们将在本章介绍这些组件中的一部分,并且展示它们如何与 为加深理解,让我们勾勒一下大数据的概况。鉴于所涉及数据 的规模,它们会分布于大量存储和计算节点上,而这得益于使用 Hadoop。由于 Hadoop 是分布式的(而非集中式的),因而不具备关系 型数据库管理系统(RDBMS)的特点。这使得你能够使用 Hadoop 所 提供的大型数据存储和多种数据类型。 第 1 章 Hadoop 概述 3 例如,让我们考虑类似 Google、Bing
    0 码力 | 17 页 | 583.90 KB | 1 年前
    3
  • pdf文档 银河麒麟服务器操作系统V4 Hadoop 软件适配手册

    处理、虚拟化等关键技术优势,针对关键业务构建的丰富高效、安全可靠的功能 特性,兼容适配长城、联想、浪潮、华为、曙光等国内主流厂商的服务器整机产 品,以及达梦、金仓、神通等主要国产数据库和中创、金蝶、东方通等国产中间 件,满足虚拟化、云计算和大数据时代,服务器业务对操作系统在性能、安全性 及可扩展性等方面的需求,是一款具有高安全、高可用、高可靠、高性能的自主 可控服务器操作系统。 1.2 环境概述
    0 码力 | 8 页 | 313.35 KB | 1 年前
    3
  • pdf文档 通过Oracle 并行处理集成 Hadoop 数据

    许多垂直行业都在关注文件系统中庞大的数据。这些数据中通常包含大量无关的 明细信息,以及部分可用于趋势分析或丰富其他数据的精华信息。尽管这些数据 存储在数据库之外,但一些客户仍然希望将其与数据库中的数据整合在一起以提 取对业务用户有价值的信息。 本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注 意,本文选择了 Hadoop 和 HDFS 作为示例,但这里的策略同样适用于其他分 外部 Hadoop 数据的访问方法 要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据,最简单的方法莫过于使用 外部表。请参阅这里了解外部表。 外部表以表的形式展示存储在文件系统中的数据,并且可在 SQL 查询中完全透明地使用。 因此,可以考虑用外部表从 Oracle 数据库中直接访问 HDFS(Hadoop 文件系统)中存储的 数据。遗憾的是,常规的操作系统无法调用外部表驱动直接访问 存储,并将其作为常规文件系统处理。通过使用一个此类驱动程序,并在数据库实 例上挂载 HDFS(如果是 RAC 数据库,则在其所有实例上挂载 HDFS),即可使用外部表基 础架构轻松访问 HDFS 文件。 图 1. 用数据库内置的 MapReduce 通过外部表进行访问 在图 1 中,我们利用 Oracle Database 11g 实现本文所述的数据库内的 mapreduce。通常情况 下,Oracle
    0 码力 | 21 页 | 1.03 MB | 1 年前
    3
  • pdf文档 Hadoop 3.0以及未来

    • 加入ebay前,在intel工作6年,大数据架构师,负责领导大数据的 开源贡献、基于Intel平台的开源顷目优化以及一些基于Spark的大 规模机器/深度学习顷目。 • 超过9年的互联网、云计算、大数据的工作经验。 概要 • Hadoop的历叱 • Hadoop 3介绍  Common  HDFS  YARN  MapReduce • Hadoop的未来发展方向 Hadoop的历叱 Hadoop 3介绍 • Common • HDFS  纠错码(Erasure Coding)  多个Standby Namenode  Datanode内部balance工具  云计算平台的支持 • YARN • MapReduce HDFS纠错码(Erasure Coding) • 一个简单的例子 1备份: 1,0 需要额外的2位 XOR编码: 1,0 需要额外的1位 Journal Node Journal Node Journal Node Write edit logs Read edit logs Block reports HDFS-6440 云计算-存储虚拟化 Hadoop 文件系统API SQL, 机器学习, 流处理, Batch… Hadoop 3介绍 • Common • HDFS • YARN  YARN Timeline
    0 码力 | 33 页 | 841.56 KB | 1 年前
    3
  • pdf文档 這些年,我們一起追的Hadoop

    等雲端平台的運 用,以及 Android、Windows Phone 等 Smart Phone 的應用程式開發。 PS. 除了我的照片之外,投影片裡頭 所有的圖片都來自於 Google Search,版權歸原來各網站與企業所 有,謝謝。 Bio 2 / 74 Agenda 0. 前情提要 1. 進擊的 Hadoop 2. Hadoop 家族 3. Hadoop 戰隊 4. Hadoop Distribution for Hadoop (CDH)。 42 / 74 Hortonworks Data Platform Hortonworks 是主導 Hadoop Windows 版 Porting 與 YARN 開發的重要廠商。 2013 年拿到 50M 的 Funding,2014 年又拿到 100M。 43 / 74 Microsoft HDInsight HDInsight 61 / 74 Dataflow 是 MapReduce 的繼 承者,由數個 Google 內部使用 的技術為基礎,包括資料平行 處理管道技術 Flume 和容錯串 流技術 MillWheel 第一版 Dataflow SDK 採用 Java 來開發 BigQuery 也能與 Dataflow 相輔 相成,開發者可以把 Dataflow 的資料餵給 BigQuery Google 與 Twitter
    0 码力 | 74 页 | 45.76 MB | 1 年前
    3
  • pdf文档 Spark 简介以及与 Hadoop 的对比

    RDD 数据写 到存储系统中。Actions 是触发 Spark 启动计算的动因。 1.2.3 血统(Lineage) 利用内存加快数据加载,在众多的其它的 In-Memory 类数据库或 Cache 类系统中也有实 现,Spark 的主要区别在于它处理分布式运算环境下的数据容错性(节点实效/数据丢失)问 题时采用的方案。为了保证 RDD 中数据的鲁棒性,RDD 数据集通过所谓的血统关系(Lineage)
    0 码力 | 3 页 | 172.14 KB | 1 年前
    3
共 10 条
  • 1
前往
页
相关搜索词
Hadoop迁移阿里MaxCompute技术方案大数时代Intel硅谷入门集成IBM概述银河麒麟服务务器服务器操作系统操作系统V4软件适配手册通过Oracle并行处理并行处理数据3.0以及未来這些我們一起Spark简介对比
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩