积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(11)Hadoop(11)

语言

全部中文(简体)(10)西班牙语(1)

格式

全部PDF文档 PDF(11)
 
本次搜索耗时 0.020 秒,为您找到相关结果约 11 个.
  • 全部
  • 云计算&大数据
  • Hadoop
  • 全部
  • 中文(简体)
  • 西班牙语
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    ....................... 19 5.1 阶段 1:调研评估&迁移方案 ........................................................................................................ 20 5.2 阶段 2:试点/全面业务迁移 ..................... ..................................................................................... 20 5.3 阶段 3:并行测试,割接 ........................................................................................... 版本) 不暴露文件系统,输入输出都是表 通过 MaxCompute 客户端工具、Dataworks 提交作业 交互式分析 MaxCompute Lightning MaxCompute 产品的交互式查询服务,特性如下: 兼容 PostgreSQL:兼容 PostgreSQL 协议的 JDBC/ODBC 接口,所有支持 PostgreSQL 数据库的工 具或应用使用默认驱动都可以轻松地连接到
    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(生产调优手册)

    4096 12 月 11 08:03 name1 drwxrwxr-x. 3 atguigu atguigu 4096 12 月 11 08:03 name2 4)向集群上传一个文件,再次观察两个文件夹里面的内容发现不一致(一个有数一个没有) [atguigu@hadoop102 hadoop-3.1.3]$ hadoop fs -put wcinput/word.txt / 思考:如果数据不均衡(hadoop105 数据少,其他节点数据多),怎么处理? 4.3 服务器间数据均衡 1)企业经验: 在企业开发中,如果经常在 hadoop102 和 hadoop104 上提交任务,且副本数为 2,由于 尚硅谷大数据技术之 Hadoop(生产调优手册) ——————————————————————————————————————— [atguigu@hadoop102 hadoop-3.1.3]$ hdfs dfs -put web.log /input 注:你所上传的文件需要大于 2M 才能看出效果。(低于 2M,只有一个数据单元和两 个校验单元) (4)查看存储路径的数据单元和校验单元,并作破坏实验 5.2 异构存储(冷热数据分离) 异构存储主要解决,不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。
    0 码力 | 41 页 | 2.32 MB | 1 年前
    3
  • pdf文档 大数据集成与Hadoop - IBM

    量全无限制。只需添加更多的硬件,即可处理更多的数据,实 现更高的处理吞吐量。添加硬件资源的同时,无需修改即可运 行相同的应用程序并且性能也会随之提高(参见图1)。 关键成功因素:避免炒作,分辨是非 在这些新兴的Hadoop市场阶段,请仔细分辨听到的所有 说明Hadoop卓尔不群的言论。充分使用Hadoop的神话 与现实之间存在巨大的反差,这在大数据集成方面表现尤为 突出。很多业界传言称,任何不可扩展的抽取、转换和加载 据集成,所以企业必须确定如何优化整个企业的此类工作负载。 一个Hadoop与大数据集成的重要用例是将大型ETL工作负载 从企业数据仓库 (EDW) 卸载下来,以便降低成本并改善查询 服务水平协议 (SLA)。该用例会引发以下问题: • 企业是否应卸载EDW中的所有ETL工作负载? • 是否应将所有大数据集成工作负载都推送到Hadoop? • 在没有并行关系数据库管理系统 (RDBMS) 集成开 发环境:这种做法没有任何实际意义,而且支持费用非常昂 贵。您应该能够构建一次作业,然后即可在三个环境中的任意 一个环境内运行它。 最适合Hadoop的流程 Hadoop 平台由以下两个主要组件构成:分布式容错文件系统 (称为Hadoop Distributed File System (HDFS))和并 行处理框架(称为MapReduce)。 HDFS平台十分适合处理大型顺序操作,其中的数据读取“切
    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(入门)

    –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 YARN架构概述 client client Resource Manager Job Submission 作业提交 1)ResourceManager(RM):整个集群资源(内存、CPU等)的老大 3)ApplicationMaster(AM):单个任务运行的老大 2)NodeManager(NM):单个节点服务器资源老大 4G内存 2CPU 4G内存 2CPU 12G内存 6CPU 1.5.3 MapReduce 架构概述 MapReduce 将计算过程分为两个阶段:Map 和 Reduce 1)Map 阶段并行处理输入数据 2)Reduce 阶段对 Map 结果进行汇总 ss.avi yangge.avi bobo.avi ss1505_w uma.avi ... 100T 任务需求:找出宋宋老师2015年5月份的教学视频 –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 7)单点启动 8)配置 ssh 9)群起并测试集群 3.2.1 虚拟机准备 详见 2.1、2.2 两节。 3.2.2 编写集群分发脚本 xsync 1)scp(secure copy)安全拷贝 (1)scp 定义 scp 可以实现服务器与服务器之间的数据拷贝。(from server1
    0 码力 | 35 页 | 1.70 MB | 1 年前
    3
  • pdf文档 银河麒麟服务器操作系统V4 Hadoop 软件适配手册

    一起来计算最终的结果。简而言之,Hadoop Mapreduce 是一个易于编程并且能在 大型集群(上千节点)快速地并行得处理大量数据的软件框架,以可靠,容错的 方式部署在商用机器上。MapReduce 这个术语来自两个基本的数据转换操作:map 过程和 reduce 过程。  map: map 操作会将集合中的元素从一种形式转化成另一种形式,在这种情况下, 输入的键值对会被转换成零到多个键值对输出。其中输入和输出的键必须完全不 reduce 过程的话,那么 reduce 过程也是可以不用的。  task: Hadoop 提供了一套基础设计来处理大多数困难的工作以保证任务可以成功 执行,比如 Hadoop 决定如果将提交的 job 分解为多个独立的 map 和 reduce 任务 (task)来执行,它就会对这些 task 进行调度并为其分配合适的资源,决定将某 个 task 分配到集群中哪个位置(如果可能,通常是这个 成,并重启一些失败的 task。 1.6 YARN 介绍 YARN 是 Hadoop 2.0 中的资源管理系统,它的基本设计思想是将 MRv1 中的 JobTracker 拆分成了两个独立的服务:一个全局的资源管理器 ResourceManager 和每个应用程序特有的 ApplicationMaster。其中 ResourceManager 负责整个系统 的资源管理和分配,而
    0 码力 | 8 页 | 313.35 KB | 1 年前
    3
  • pdf文档 通过Oracle 并行处理集成 Hadoop 数据

    框架异步调用外部shell 脚本,然后由这个shell脚本提交一个Hadoop Map-Reduce 作业。该表函数与映射器 (mapper) 之 间使用 Oracle 高级队列特性进行通信。Hadoop mapper 将数据排入一个公共队列,而表函数则 从该队列中取出数据。由于该表函数能够并行运行,因此使用额外的逻辑来确保仅有一个服 务进程提交外部作业。 3 Oracle 白皮书 — 通过 随后的第 6 步是出队过程,这是通过数据库中的表函数并行调用来实现的。这些并行调用处 理得到的数据将会提供给查询请求来使用。表函数同时处理Oracle数据库的数据和来自队列 中的数据,并将来自两个来源的数据整合为单一结果集提供给最终用户。 图 4. 监控进程 Hadoop的进程 (mapper) 启动之后,作业监控器进程将监视启动程序脚本。一旦mapper 完成 Java Mapper 脚本 我们为本例编写了在 Hadoop 集群上执行的一个简单的 mapper 进程。实际上当然存在许多更 加完善的 mapper。这个 mapper 将一个字符串转为两个数字,并按照逐行的方式将其提供给 队列。 // Simplified mapper example for Hadoop cluster import java.sql.*; //import
    0 码力 | 21 页 | 1.03 MB | 1 年前
    3
  • pdf文档 Hadoop开发指南

    注解:本例中所运⾏脚本需在CentOS操作系统上,其他操作系统请修改脚本后再尝试执⾏。 1. 在 在UHost上安装 上安装Hadoop客户端 客户端 出于安全性考虑,⼀般建议⽤⼾在⾮UHadoop集群机器上安装客⼾端进⾏任务提交与相关操作 1.1 控制台安装 控制台安装 可通过控制台⼀键安装,参考:客⼾端安装。 1.2 ⾃⾏安装 ⾃⾏安装 针对部分存量已⾃⾏安装⽤⼾,可根据选择按照以下⽅式⾃⾏安装。 1.2.1 利⽤安装脚本部署 name=root" 2.4 MapReduce Job 以terasort为例,说明如何提交⼀个MapReduce Job ⽣成官⽅terasort input数据集 hadoop jar /home/hadoop/hadoop-examples.jar teragen 100 /tmp/terasort_input 提交任务 hadoop jar /home/hadoop/hadoop-examples
    0 码力 | 12 页 | 135.94 KB | 1 年前
    3
  • pdf文档 Spark 简介以及与 Hadoop 的对比

    内存中,下一个操作可以直接从内存中输入,省去了 MapReduce 大量的磁盘 IO 操作。这对 于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说,效率提升比较大。 1.2.2 RDD 的转换与操作 对于 RDD 可以有两种计算方式:转换(返回值还是一个 RDD)与操作(返回值不是一个 RDD) 1. 转换(Transformations) (如:map, filter, groupBy, join 等),Transformations 获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型,限制了 Spark 的运用场合,但同时相比细颗粒度的数据模型,也带来了性能的提升。 RDD 在 Lineage 依赖方面分为两种 Narrow Dependencies 与 Wide Dependencies 用 来解决数据容错的高效性。Narrow Dependencies 是指父 RDD 的每一个分区最多被一个子 RDD Dependencies 对于数据的重算开销要远小于 Wide Dependencies 的数据重算开销。 1.2.4 容错 在 RDD 计算,通过 checkpint 进行容错,做 checkpoint 有两种方式,一个是 checkpoint data,一个是 logging the updates。用户可以控制采用哪种方式来实现容错,默认是 logging the updates 方式,通过记录跟踪所有生成
    0 码力 | 3 页 | 172.14 KB | 1 年前
    3
  • pdf文档 Hadoop 概述

    YARN 基础设施(另一个资源协调器)是一项用于提供执行应用 程序所需的计算资源(内存、CPU 等)的框架。 YARN 有什么诱人的特点或是性质?其中两个重要的部分是资 源管理器和节点管理器。让我们来勾勒 YARN 的框架。首先考虑一 个两层的群集,其中资源管理器在顶层(每个群集中只有一个)。资 Hadoop 大数据解决方案 6 源管理器是主节点。它了解从节点所在的位置(较底层)以及它们拥
    0 码力 | 17 页 | 583.90 KB | 1 年前
    3
  • pdf文档 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖

    Distributed Computing Server) 9 MATLAB与Spark/Hadoop集成 MDCS 10 Hadoop Hadoop是跨计算机集群的分布式大数据处理平台,由两部分组成: • YARN (Yet Another Resource Negotiator) – 资源调度模型,实现数据跨节点的最小移动 • Map/Reduce – 跨节点分布式计算模型 •
    0 码力 | 17 页 | 1.64 MB | 1 年前
    3
共 11 条
  • 1
  • 2
前往
页
相关搜索词
Hadoop迁移阿里MaxCompute技术方案硅谷大数生产调优手册集成IBM入门银河麒麟服务务器服务器操作系统操作系统V4软件适配通过Oracle并行处理并行处理数据开发指南Spark简介以及对比概述MATLAB实现价值
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩