积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(6)Hadoop(6)

语言

全部中文(简体)(5)西班牙语(1)

格式

全部PDF文档 PDF(6)
 
本次搜索耗时 0.014 秒,为您找到相关结果约 6 个.
  • 全部
  • 云计算&大数据
  • Hadoop
  • 全部
  • 中文(简体)
  • 西班牙语
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    zip,工具目录结构如下: Alibaba Cloud MaxCompute 解决方案 23 其中,bin 目录下是迁移工具所需的可执行文件,libs 目录下是工具所依赖的库,res 目录下是 工具所需的其他依赖,如 odpscmd 等。 3. 获取 Hive metadata 4. 结果输出 Alibaba Cloud MaxCompute 解决方案 24 生成的目录,调 用 odpscmd 自动创建 ODPS 表与分区。 Alibaba Cloud MaxCompute 解决方案 35 【注意】:odps_ddl_runner.py 需要依赖 odpscmd,因此在执行前,需要配置 odpscmd 的 config.ini 文件,配置方法请参见文档: https://help.aliyun.com/document_detail/27804 开发指南》第二节准备开发环境和修改配置。注意,对于 spark 或 hadoop 的依赖必须设成 provided。 Alibaba Cloud MaxCompute 解决方案 44 2. 【作业需要访问 MaxCompute 表】参考《MaxCompute Spark 开发指南》第三节编译 datasource 并安装到本地 maven 仓库,在 pom 中添加依赖后重新打包即可。 3. 【作业需要访问 OSS】参考《MaxCompute
    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
  • pdf文档 大数据集成与Hadoop - IBM

    pushdown之争无法在Hadoop中提供所需的性能水平。 因此他们争相与IBM合作解决这个问题,因为IBM大数据集 成解决方案以其独有的方式支持大数据集成的大规模数据可 扩展性要求。 以下是依赖ETL pushdown会造成的一些累积负面影响: • ETL包含大部分EDW工作负载。由于相关成本的影响, 对于运行ETL的工作负载而言,EDW是一种非常昂贵的 平台。 • ETL工作负载会导致查询SLA降级,最终需要您额外投 ETL工作负载会导致查询SLA降级,最终需要您额外投 资购买昂贵的EDW容量。 • 数据被转储到EDW之前未清理数据,一旦进入EDW环 境将永远无法进行清理工作,继而导致数据质量较差。 • 企业持续严重依赖手动编码SQL脚本来执行数据转换。 • 添加新数据源或修改现有ETL脚本较为昂贵并且需要很 长的时间,限制了快速响应最新需求的能力。 • 数据转换相对简单,因为无法使用ETL工具将较为复杂 的逻辑推送到RDBMS。 自我记录 • 可重用性 • 可管理性更高 • 性能提升 手动编码和工具成果来源:IBM制药客户示例 12 大数据集成与 Hadoop 最佳实践2:整个企业采用一个数据集成和治理平台 过度依赖向RDBMS推送ETL(由于缺乏可扩展数据集成软 件工具)会妨碍很多企业替换SQL脚本手动编码,更不要说 在企业中建立有效的数据治理机制。然而,他们意识到将大 型ETL工作负载从RDBMS迁移至Hadoop将会节约巨额成
    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
  • pdf文档 Spark 简介以及与 Hadoop 的对比

    Lineage 获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型,限制了 Spark 的运用场合,但同时相比细颗粒度的数据模型,也带来了性能的提升。 RDD 在 Lineage 依赖方面分为两种 Narrow Dependencies 与 Wide Dependencies 用 来解决数据容错的高效性。Narrow Dependencies 是指父 RDD 的每一个分区最多被一个子 的分区或多个父 RDD 的分 区对应于一个子 RDD 的分区,也就是说一个父 RDD 的一个分区不可能对应一个子 RDD 的 多个分区。Wide Dependencies 是指子 RDD 的分区依赖于父 RDD 的多个分区或所有分区, 也就是说存在一个父 RDD 的一个分区对应一个子 RDD 的多个分区。对与 Wide Dependencies,这种计算的输入和输出在不同的节点上,lineage
    0 码力 | 3 页 | 172.14 KB | 1 年前
    3
  • pdf文档 Hadoop 3.0以及未来

     Classpath隔离  Shell脚本的重构 • HDFS • YARN • MapReduce Classpath隔离 • HADOOP-11656, HDFS-6200 问题:依赖性地狱(Dependency Hell),版本冲突 解决方案:客户端(client-side)和服务器端(server-side)的隔离 Shell脚本的重构 - HADOOP-9902 • 脚本重构,提升可维护性和易用性
    0 码力 | 33 页 | 841.56 KB | 1 年前
    3
  • pdf文档 Hadoop 概述

    查看数据的效率。Hadoop 排除了各种局限性,并且正在各个新领域 中继续发展。 理解 Hadoop 的存储系统将使你能够利用数据集成和业务分析 来汇总大型数据湖并分析各种数据类型,而且不依赖于它们的当前 来源。充分理解 Hadoop 平台能够使其用户实时处理大量可扩展的 数据,并提供最优分析。Hadoop 存储流程的突出优点在于没有额外 的存储或计算开销,而是存在收益,比如提高数据的准确性并且能
    0 码力 | 17 页 | 583.90 KB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(入门)

    (3)lib 目录:存放 Hadoop 的本地库(对数据进行压缩解压缩功能) (4)sbin 目录:存放启动或停止 Hadoop 相关服务的脚本 (5)share 目录:存放 Hadoop 的依赖 jar 包、文档、和官方案例 第 3 章 Hadoop 运行模式 1)Hadoop 官方网站:http://hadoop.apache.org/ 2)Hadoop 运行模式包括:本地模式、伪分布式模式以及完全分布式模式。
    0 码力 | 35 页 | 1.70 MB | 1 年前
    3
共 6 条
  • 1
前往
页
相关搜索词
Hadoop迁移阿里MaxCompute技术方案大数集成IBMSpark简介以及对比3.0未来概述硅谷入门
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩