积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(10)Hadoop(10)

语言

全部中文(简体)(8)西班牙语(1)中文(繁体)(1)

格式

全部PDF文档 PDF(10)
 
本次搜索耗时 0.022 秒,为您找到相关结果约 10 个.
  • 全部
  • 云计算&大数据
  • Hadoop
  • 全部
  • 中文(简体)
  • 西班牙语
  • 中文(繁体)
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    ........................................................................................ 44 7.1 基本功能................................................................................................. compiler,语言功能开发更灵活,迭 代快,语法语义检查更加灵活高效 * 基于代价的优化器,更智能,更强大,更适合复杂的查 询 * 基于 LLVM 的代码生成,让执行过程更高效 * 支持复杂数据类型(array,map,struct) * 支持 Java、Python 语言的 UDF/UDAF/UDTF * 语法:Values、CTE、SEMIJOIN、FROM 倒装、 Subquery useSubjectCredsOnly=false 6.3.1.2 客户信息收集模板  客户需要登录到 Dataworks 填写“Hadoop 搬站信息”表单,需提供如下信息:  Hadoop 类型和版本(CDH 自建、CDH 云上自建、Hadoop IDC 自建、Hadoop 云上自建、 云上托管 EMR)  集群规模(服务器台数) Alibaba Cloud MaxCompute
    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
  • pdf文档 Hadoop 概述

    HDFS、MapReduce、YARN、ZooKeeper 和 Hive 的角色 ● Hadoop 与其他系统的集成 ● 数据集成与 Hadoop Hadoop 是一种用于管理大数据的基本工具。这种工具满足了企 业在大型数据库(在 Hadoop 中亦称为数据湖)管理方面日益增长的 需求。当涉及数据时,企业中最大的需求便是可扩展能力。科技和 商业促使各种组织收集越来越多的数据,而这也增加了高效管理这 得益于使用 Hadoop。由于 Hadoop 是分布式的(而非集中式的),因而不具备关系 型数据库管理系统(RDBMS)的特点。这使得你能够使用 Hadoop 所 提供的大型数据存储和多种数据类型。 第 1 章 Hadoop 概述 3 例如,让我们考虑类似 Google、Bing 或者 Twitter 这样的大型 数据存储。所有这些数据存储都会随着诸如查询和庞大用户基数等 的功能使得它成为最常用的批处理工具之一。该处 理器的灵活性使其能利用自身的影响力来挑战现有系统。通过将数 据处理的工作负载分为多个并行执行的任务,MapReduce 允许其用 户处理存储于 HDFS 上不限数量的任意类型的数据。因此,MapReduce 让 Hadoop 成为了一款强大工具。 在 Hadoop 最近的发展中,另有一款称为 YARN 的组件已经可 用于进一步管理 Hadoop 生态系统。 1
    0 码力 | 17 页 | 583.90 KB | 1 年前
    3
  • pdf文档 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖

    ImageDatastore 6 tall arrays ▪ tall array – 一种新的数据类型,专门用于处理大数据. – 用于处理数据规模超过单个机器或群集的内存承载能力的数据集合 ▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归 7 tall
    0 码力 | 17 页 | 1.64 MB | 1 年前
    3
  • pdf文档 Spark 简介以及与 Hadoop 的对比

    Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算 法。 1.2 Spark 核心概念 1.2.1 弹性分布数据集(RDD) RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式 来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西,它表示已被分区,不可变的 并能够被并行操作的数据集合,不同的数据集格式对应不同的 灵活 1. Spark 提供的数据集操作类型有很多种,不像 Hadoop 只提供了 Map 和 Reduce 两种操 作。比如 map, filter, flatMap, sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy 等多种操作类型,Spark 把这些操作称为 Transformations。同时还提供 Transformations。同时还提供 Count, collect, reduce, lookup, save 等多种 actions 操作。 2. 这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便。各个处理节点 之间的通信模型不再像 Hadoop 那样就是唯一的 Data Shuffle 一种模式。用户可以命名, 物化,控制中间结果的存储、分区等。可以说编程模型比 Hadoop
    0 码力 | 3 页 | 172.14 KB | 1 年前
    3
  • pdf文档 银河麒麟服务器操作系统V4 Hadoop 软件适配手册

    能、安全性 及可扩展性等方面的需求,是一款具有高安全、高可用、高可靠、高性能的自主 可控服务器操作系统。 1.2 环境概述 服务器型号 长城信安擎天 DF720 服务器 CPU 类型 飞腾 2000+处理器 操作系统版本 Kylin-4.0.2-server-sp2-2000-19050910.Z1 内核版本 4.4.131 hadoop 版本 2.7.7 一起来计算最终的结果。简而言之,Hadoop Mapreduce 是一个易于编程并且能在 大型集群(上千节点)快速地并行得处理大量数据的软件框架,以可靠,容错的 方式部署在商用机器上。MapReduce 这个术语来自两个基本的数据转换操作:map 过程和 reduce 过程。  map: map 操作会将集合中的元素从一种形式转化成另一种形式,在这种情况下, 输入的键值对会被转换成零到多个键值对输出。其中输入和输出的键必须完全不 银河麒麟服务器操作系统 V4 hadoop 软件适配手册 4 成,并重启一些失败的 task。 1.6 YARN 介绍 YARN 是 Hadoop 2.0 中的资源管理系统,它的基本设计思想是将 MRv1 中的 JobTracker 拆分成了两个独立的服务:一个全局的资源管理器 ResourceManager 和每个应用程序特有的 ApplicationMaster。其中 ResourceManager
    0 码力 | 8 页 | 313.35 KB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(生产调优手册)

    异构存储主要解决,不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 RAM_DISK:(内存镜像文件系统) SSD:(SSD固态硬盘) DISK:(普通磁盘,在HDFS中,如果没有主动声明数据目录存储类型默认都是DISK) ARCHIVE:(没有特指哪种存储介质,主要的指的是计算能力比较弱而存储密度比较高的存储介质,用来解决数据量的 容量扩增的问题,一般用于归档) 1)关于存储类型 2)关于存储策略 所有副本都保存在SSD中。 一个副本保存在SSD中,其余副本保存在磁盘中。 Hot:所有副本保存在磁盘中,这也是默认的存储策略。 一个副本保存在磁盘上,其余副本保存在归档存储上。 所有副本都保存在归档存储上。 存储类型和存储策略 5.2.1 异构存储 Shell 操作 (1)查看当前有哪些存储策略可以用 [atguigu@hadoop102 hadoop-3.1.3]$ hdfs storagepolicies hadoop dfsadmin -report 5.2.2 测试环境准备 1)测试环境描述 服务器规模:5 台 集群配置:副本数为 2,创建好带有存储类型的目录(提前创建) 集群规划: 节点 存储类型分配 hadoop102 RAM_DISK,SSD hadoop103 SSD,DISK hadoop104 DISK,RAM_DISK hadoop105
    0 码力 | 41 页 | 2.32 MB | 1 年前
    3
  • pdf文档 大数据时代的Intel之Hadoop

    架构的处理器、芯片组、基本输入输出系统(BIOS)、操作系统、设备驱劢程序和应用。实际性能会根据您使用的具体 软硬件配置的丌同而有所差异。如欲了解更多信息£¬请不您的系统厂商联系。 没有仸何计算机系统能够在所有情冴下提供绝对的安全性。英特尔® 可信执行技术是由英特尔开发的一项安全技术,要求计算机系统具备英特尔® 虚拟化技术、支持英特尔可信执行技术的 处理器、芯片组、基本输入输出系统(BIOS) 处理器、支持超线程(HT)技术的芯片组、基本输入输出系统、BIOS 和操作系统。实 际性能会根据您所使用的具体软硬件配置的丌同而有所差异。有关详细信息,包括哪些处理器支持英特尔 HT 技术,请访问 www.intel.com/products/ht/hyperthreading_more.htm。 英特尔® 虚拟化技术要求计算机系统具备支持英特尔虚拟化技术的英特尔® 处理器、基本输入输出系统、BIOS、虚拟 • 避免频繁创建HTable对象 • 如果可以,关闭WAL • Region负载丌均衡:要让写均匀分布到所有的region server上 • 如果写入的row key是基本单调的(例如时序数据),那么基本上会都落在同一个region上,所以只有一个region server活跃,总体性能会很差 • “加盐” • 过多的compaction和compaction丌及时 •
    0 码力 | 36 页 | 2.50 MB | 1 年前
    3
  • pdf文档 這些年,我們一起追的Hadoop

    prone to failures. Apache Hadoop 網站自我介紹 6 / 74 對購物網站來說,就是知道使用 者的: 動線 看過的頁面 回應過的留言 ... 再來一下交叉比對: 基本資料 歷史購物記錄 ... Hadoop 是 Big Data 的好朋友 7 / 74 Hadoop + Big Data 的預測 然後就可以寄更精準的型錄給你(女兒)! 8 / 74 MapReduce (MRv1) 只有一個 JobTracker (Master),可是要管理多個 TaskTracker (Slave)! 10 / 74 Hadoop 1.x 架構與限制 比較基本的模組: Hadoop HDFS (Storage) Hadoop MapReduce (Computing Engine + Resource Management + Job Scheduling Availability 可以有多個 Namespace 可以做 Snapshot I/O 速度快 2.5-5 倍 ... 改造 HDFS -> HDFS2 20 / 74 Hadoop 2.x 架構 比較基本的模組: Hadoop Common (Core Libraries) Hadoop HDFS (Storage) Hadoop MapReduce (Computing Engine) Hadoop
    0 码力 | 74 页 | 45.76 MB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(入门)

    xsync 1)scp(secure copy)安全拷贝 (1)scp 定义 scp 可以实现服务器与服务器之间的数据拷贝。(from server1 to server2) (2)基本语法 scp -r $pdir/$fname $user@$host:$pdir/$fname 命令 递归 要拷贝的文件路径/名称 目的地用户@主机:目的地路径/名称 尚硅谷大数据技术之 Hadoop(入门) ————————————————————————————— 更多 Java –大数据 –前端 –python 人工智能资料下载,可百度访问:尚硅谷官网 (1)基本语法 rsync -av $pdir/$fname $user@$host:$pdir/$fname 命令 选项参数 要拷贝的文件路径/名称 source /etc/profile [atguigu@hadoop104 opt]$ source /etc/profile 3.2.3 SSH 无密登录配置 1)配置 ssh (1)基本语法 ssh 另一台电脑的 IP 地址 (2)ssh 连接时出现 Host key verification failed 的解决方法 [atguigu@hadoop102 ~]$ ssh
    0 码力 | 35 页 | 1.70 MB | 1 年前
    3
  • pdf文档 大数据集成与Hadoop - IBM

    希望获得更出色的洞察、新产品、新服务以及更高的服务水平,都 可以通过这项技术一一实现,从而大幅降低成本并创造新的 收入。 依靠收集、移动、转换、清除、集成、治理、探索以及分析多种 不同来源的大量不同类型的数据来实现大数据与Hadoop项 目。实现所有这些目标需要运用富有弹性的端到端信息集成 解决方案,该解决方案不仅可实现大规模扩展,还能提供支持 Hadoop项目所需的基础架构、功能、流程和行为准则。
    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
共 10 条
  • 1
前往
页
相关搜索词
Hadoop迁移阿里MaxCompute技术方案概述MATLABSpark集成实现数据处理价值简介以及对比银河麒麟服务务器服务器操作系统操作系统V4软件适配手册硅谷大数生产调优时代Intel這些我們一起入门IBM
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩