积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(11)Hadoop(11)

语言

全部中文(简体)(9)西班牙语(1)中文(繁体)(1)

格式

全部PDF文档 PDF(11)
 
本次搜索耗时 0.014 秒,为您找到相关结果约 11 个.
  • 全部
  • 云计算&大数据
  • Hadoop
  • 全部
  • 中文(简体)
  • 西班牙语
  • 中文(繁体)
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖

    1 © 2015 The MathWorks, Inc. MATLAB与Spark/Hadoop相集成:实现大 数据的处理和价值挖 马文辉 2 内容 ▪ 大数据及其带来的挑战 ▪ MATLAB大数据处理 ➢ tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 Negotiator) – 资源调度模型,实现数据跨节点的最小移动 • Map/Reduce – 跨节点分布式计算模型 • HDFS (Hadoop Distributed File System) - 跨节点的分布式文件系统 Hadoop Ecosystem 11 Spark Spark是一个流行的开源集群计算框架 • 并行计算引擎 • 使用广义的计算模型 • 基于内存进行计算(内存计算)
    0 码力 | 17 页 | 1.64 MB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(入门)

    Hadoop 项目 中,Hadoop就此正式诞生,标志着大数据时代来临。 9)名字来源于Doug Cutting儿子的玩具大象 Hadoop的logo 1.3 Hadoop 三大发行版本(了解) Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。 Apache 版本最原始(最基础)的版本,对于入门学习最好。2006 Cloudera 内部集成了很多大数据框架,对应产品 Streaming 实时计算 Spark Sql 数据查询 Oozie任务调度 Azkaban任务调度 业务模型、数据可视化、业务应用 Z o o k e e p e r 数 据 平 台 配 置 和 调 度 数据来源层 数据传输层 数据存储层 资源管理层 数据计算层 任务调度层 业务模型层 Storm实时计算 Flink 图中涉及的技术名词解释如下: 1)Sqoop:Sqoop
    0 码力 | 35 页 | 1.70 MB | 1 年前
    3
  • pdf文档 Hadoop 概述

    用户基数等 活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大 型数据存储。 类似 Google 这样的商业公司可使用 Hadoop 来操作、管理其数 据存储并从中产生出有意义的结果。通常用于商业分析的传统工具 并不旨在处理或分析超大规模数据集,但 Hadoop 是一个适用于这 些商业模型的解决方案。 1.1.1 Hadoop 的组件 Hadoop Common 4 Machine,VM)或笔记本电脑上完成初始配置,而且可以升级到服务 器部署。它具有高度的容错性,并且被设计为能够部署在低成本的 硬件之上。它提供对应用程序数据的高吞吐量访问,适合于面向大 型数据集的应用程序。 在任何环境中,硬件故障都是不可避免的。有了 HDFS,你的 数据可以跨越数千台服务器,而每台服务器上均包含一部分基础数 据。这就是容错功能发挥作用的地方。现实情况是,这么多服务器
    0 码力 | 17 页 | 583.90 KB | 1 年前
    3
  • pdf文档 大数据时代的Intel之Hadoop

    尽量避免:比方说增加compaction thread数,防止阻塞写入 • 过多的split • 预分配region 大对象的高效存储(IDH2.3) 在交通、金融等领域,要求存储大量的图片 • 将图片存入HBase,引起大量的compaction • 将图片存入HDFS,管理使用麻烦 IDH引入了表外存储以解决大对象的高效存储问题 • 类似Oracle的BLOB存储 • 对用户透明 • 2X以上的写入性能,还有迚一步提升的空间 一个简单的经验公式:每台region server纯写入时高负载应能 达到>1万条记录/秒(每记录200字节) 英特尔Hadoop功能增强 - 跨数据中心大表 虚拟大表 分中心 A 分中心 B 分中心 C 特点与优势 全局虚拟大表,访问方便 大表数据分区存放在物理分中心 接入仸何分中心可访问全局数据 高可用性 适合本地高速写入 分布式聚合计算,避免大数据传输 英特尔Hadoop发行版 实时监控和即时处理提供有效保障 针对企业用户开发的新的平台功能 •提供企业关键应用程序所需的即时大数据分析,以及其他针对企业用户需要的增强功能,例如:提供跨数据中心的 HBase 数据库虚拟大表功能,实现 HBase 数据库复制和备仹功能, 等等。 提供底层 Hadoop 性能优化算法和稳定性增强 •基亍 Hadoop 底层的大量优化算法,配合英特尔优化架构,使应用效率更高、计算
    0 码力 | 36 页 | 2.50 MB | 1 年前
    3
  • pdf文档 大数据集成与Hadoop - IBM

    行软件平台,有些企业采用此做法已有近20年。 久而久之,这些供应商陆续集中关注4个常见的软件架构特征, 以便为实现海量数据可扩展性提供支持,如图2所示。 IBM软件 5 图2. 海量数据可扩展性的4大特征。 大部分商业数据集成软件平台在设计时从未考虑过支持海量数 据可扩展性,这意味着在设计之初,并未考虑利用非共享大规模 并行架构。它们依靠共享的内存多线程,而非软件数据流。 此外,有些供应商 件配置中使用它。 使用它。这些功能对于通过提升效率来降低成本至关重要。没 有它们,该平台将无法处理大量的大数据。 InfoSphere Information Server数据集成产品组合 支持4大海量数据可扩展性架构特征。请在Forrester报 告“Measuring The Total Economic Impact Of IBM InfoSphere Information Server”中了解更多信 可能需要复杂的编程工作 • MapReduce通常比并行数 据库或可扩展ETL工具速度 更慢 • 风险:Hadoop目前仍然是 一项新兴技术 IBM软件 7 以下是优化大数据集成工作负载时需要遵循的三大重要指导 原则: 1. 将大数据集成处理推向数据,而不是将数据推向处理:指定 可在RDBMS、Hadoop和ETL网格中执行的适当流程。 2. 避免手动编码:手动编码费用昂贵,而且无法有效适应快速
    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
  • pdf文档 Spark 简介以及与 Hadoop 的对比

    map, join etc.)行为。当这个 RDD 的部分分区数据丢失时,它可以通过 Lineage 获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型,限制了 Spark 的运用场合,但同时相比细颗粒度的数据模型,也带来了性能的提升。 RDD 在 Lineage 依赖方面分为两种 Narrow Dependencies 与 Wide Dependencies 用 来解决数据容错的高效性。Narrow 各个处理节点 之间的通信模型不再像 Hadoop 那样就是唯一的 Data Shuffle 一种模式。用户可以命名, 物化,控制中间结果的存储、分区等。可以说编程模型比 Hadoop 更灵活。 3. 由于 RDD 的特性,Spark 不适用那种异步细粒度更新状态的应用,例如 web 服务的存 储或者是增量的 web 爬虫和索引。就是对于那种增量修改的应用模型不适合。 2.3 容错性
    0 码力 | 3 页 | 172.14 KB | 1 年前
    3
  • pdf文档 這些年,我們一起追的Hadoop

    HDFS 只能有一個 Namespace,沒辦法分開管控 /sales、/accounting、... 只能執行 MapReduce Job ... 弱弱的問一下:台灣有多少企業 Cluster 有這麼大?Task 有這麼 多? 11 / 74 我們對 Hadoop 的期許: Batch Job Interactive Query Real-Time Processing Graph Processing MapReduce 演化成 Data Processing Platform 之後,改善 Hive 的效能 滿足 Interactive Query 與 PB-Scale Processing 的需求 三大目標: Speed:比 Hive 10 快 100 倍 Scale:撐的下 TB 到 PB 等級的資料 SQL Compatibility:最廣泛的 SQL 語法支援 13 個月內一共有來自 44 球賽的期間合作,透過 Dataflow 讀取數百萬則 Twitter 貼文,做球迷情感分析 號稱下一代的 Dataflow 目前也是寫 Java iThome Google I/O 2014 快報:雲端大資料分析服務 Dataflow 現身 62 / 74 Data 重要議題: SQL on Hadoop NoSQL and Hadoop 資料不落地 資料不出防火牆 ... 所以: 從 Hue
    0 码力 | 74 页 | 45.76 MB | 1 年前
    3
  • pdf文档 银河麒麟服务器操作系统V4 Hadoop 软件适配手册

    分为多个 block 块,管理 block 块信息,同时周期性的将其所有的 block 块信息发 送给 NameNode。 1.5 MapReduce 介绍 MapReduce 是一种计算模型,该模型可以将大型数据处理任务分解成很多单 个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在 一起来计算最终的结果。简而言之,Hadoop Mapreduce 是一个易于编程并且能在
    0 码力 | 8 页 | 313.35 KB | 1 年前
    3
  • pdf文档 Hadoop 3.0以及未来

    Spark、Kafka、Cassandra等开源大数据顷目建立ebay的广告和数 据平台。 • 加入ebay前,在intel工作6年,大数据架构师,负责领导大数据的 开源贡献、基于Intel平台的开源顷目优化以及一些基于Spark的大 规模机器/深度学习顷目。 • 超过9年的互联网、云计算、大数据的工作经验。 概要 • Hadoop的历叱 • Hadoop 3介绍  Common  HDFS  YARN  MapReduce
    0 码力 | 33 页 | 841.56 KB | 1 年前
    3
  • pdf文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    MaxCompute 内建支持的上百种机器学习算法,目前 MaxCompute 的机器学习能力由 PAI 产品进行统一提供 服务,同时 PAI 提供了深度学习框架、Notebook 开发 环境、GPU 计算资源、模型在线部署的弹性预测服务。 MaxCompute 的数据对 PAI 产品无缝集成。 存储 Pangu 阿里自研分布式存储服务,类似 HDFS。MaxCompute 对外目前只暴露表接口,不能直接访问文件系统。
    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
共 11 条
  • 1
  • 2
前往
页
相关搜索词
MATLABSparkHadoop集成实现数据处理价值硅谷大数技术入门概述时代IntelIBM简介以及对比這些我們一起银河麒麟服务务器服务器操作系统操作系统V4软件适配手册3.0未来迁移阿里MaxCompute方案
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩