积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部数据库(41)云计算&大数据(30)后端开发(20)TiDB(20)Greenplum(7)Hadoop(6)综合其他(5)产品与服务(5)Kubernetes(5)Python(4)

语言

全部中文(简体)(97)

格式

全部PDF文档 PDF(95)PPT文档 PPT(1)其他文档 其他(1)
 
本次搜索耗时 0.133 秒,为您找到相关结果约 97 个.
  • 全部
  • 数据库
  • 云计算&大数据
  • 后端开发
  • TiDB
  • Greenplum
  • Hadoop
  • 综合其他
  • 产品与服务
  • Kubernetes
  • Python
  • 全部
  • 中文(简体)
  • 全部
  • PDF文档 PDF
  • PPT文档 PPT
  • 其他文档 其他
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 Spark 简介以及与 Hadoop 的对比

    Spark 简介以及与 Hadoop 的对比 1 Spark 简介 1.1 Spark 概述 Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算框 架,Spark 基于 map reduce 算法实现的分布式计算,拥有 Hadoop MapReduce 所具有的 优点;但不同于 MapReduce 的是 Job 中间输出和结果可以保存在内存中,从而不再需要读 写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 map reduce 的算 法。 1.2 Spark 核心概念 1.2.1 弹性分布数据集(RDD) RDD 是 Spark 的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式 来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西,它表示已被分区,不可变的 的操作不是马上执行,Spark 在遇 到 Transformations 操作时只会记录需要这样的操作,并不会去执行,需要等到有 Actions 操作的时候才会真正启动计算过程进行计算。 2. 操作(Actions) (如:count, collect, save 等),Actions 操作会返回结果或把 RDD 数据写 到存储系统中。Actions 是触发 Spark 启动计算的动因。
    0 码力 | 3 页 | 172.14 KB | 1 年前
    3
  • pdf文档 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖

    MathWorks, Inc. MATLAB与Spark/Hadoop相集成:实现大 数据的处理和价值挖 马文辉 2 内容 ▪ 大数据及其带来的挑战 ▪ MATLAB大数据处理 ➢ tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 ▪ MapReduce (MDCS/PCT) ▪ MATLAB API for Spark API ▪ Tall Arrays ▪ 计算 ▪ Desktop (Multicore, GPU) ▪ Clusters ▪ Cloud Computing (MDCS on EC2) ▪ Hadoop ▪ Spark ▪ 内存与数据访问 ▪ 64-bit processors ▪ Memory Parallel Computing Toolbox) ▪ MATLAB集群之上的分布式计算 (MDCS, MATLAB Distributed Computing Server) 9 MATLAB与Spark/Hadoop集成 MDCS 10 Hadoop Hadoop是跨计算机集群的分布式大数据处理平台,由两部分组成: • YARN (Yet Another Resource Negotiator)
    0 码力 | 17 页 | 1.64 MB | 1 年前
    3
  • pdf文档 全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdash

    workload scheduling platform development l Gaps for Spark • Agenda l Why Spark on Kubernetes l Volcano solution for Spark l Future works Why Spark on Kubernetes Kubernetes extends beyond container About Spark on Kubernetes l https://github.com/apache-spark-on-k8s/spark l The goal is to bring native support for Spark to use Kubernetes as a cluster manager like YARN, or Mesos. l Spark 2.3 added Kubernetes. l Spark 2.4 added support for client mode, R, python etc. l Spark 3.0 will add support for dynamic resource allocation, external shuffle service, Kerberos etc. How it works Spark on Kubernetes
    0 码力 | 25 页 | 3.84 MB | 1 年前
    3
  • pdf文档 Ozone:Hadoop 原生分布式对象存储

    Ozone:Hadoop 原生分布式对象存储 Spark大数据博客 - https://www.iteblog.com Ozone:Hadoop 原生分布式对象存储 Hadoop 社区推出了新一代分布式Key-value对象存储系统 Ozone,同时提供对象和文件访问的接 口,从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇,抛个 砖,介绍Ozone的产生背景,主要架构和功能。 砖,介绍Ozone的产生背景,主要架构和功能。 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop 背景 HDFS是业界默认的大数据存储系统,在业界的大数据集群中有非常广泛的使用。HDFS集群有着 很高的稳定性,得益于它较简单的构架,集群也很容易扩展。业界包含几千个数据节点,保存上 百PB数据的集群也不鲜见。 HDFS通过把文件系统元数据全部加载到Name e的设 计和实现。Ozone的设计遵循一下原则: 1 / 10 Ozone:Hadoop 原生分布式对象存储 Spark大数据博客 - https://www.iteblog.com 强一致性 构架简洁性: 当系统出现问题时,一个简单的架构更容易定位,也容易调试。Ozone尽可能的保持架构 的简单,即使因此需
    0 码力 | 10 页 | 1.24 MB | 1 年前
    3
  • pdf文档 TiDB中文技术文档

    2. $ cd /opt/spark/data/tispark-sample-data 3. $ mysql -h tidb -P 4000 -u root < dss.ddl 当样本数据加载到 TiDB 集群之后,可以使用 docker-compose exec tispark-master /opt/spark/bin/spark-shell 来访 问 Spark shell。 1. $ docker-compose exec tispark-master /opt/spark/bin/spark-shell 2. ... 3. Spark context available as 'sc' (master = local[*], app id = local-1527045927617). 4. Spark session available as 'spark'. 5. Welcome to 6. 16. scala> import org.apache.spark.sql.TiContext 17. ... 18. scala> val ti = new TiContext(spark) 19. ... 20. scala> ti.tidbMapDatabase("TPCH_001") 21. ... 22. scala> spark.sql("select count(*) from lineitem")
    0 码力 | 444 页 | 4.89 MB | 6 月前
    3
  • pdf文档 Apache Cassandra 快速入门指南(Quick Start)

    Apache Cassandra 快速入门指南(Quick Start) Spark大数据博客 - https://www.iteblog.com Apache Cassandra 快速入门指南(Quick Start) 我们在这篇文章简单介绍了 Apache Cassandra 是什么,以及有什么值得关注的特性。本文将简单介绍 Apache Cassandra 的安装以及简单使用,可以帮助大家快速了解 3.11.4。Apache Cassandra 可以在 Linux、Unix、Mac OS 以及 Windows 上进行安装,为了简便起见,本文以 CentOS 为例进行介绍。 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 下载、安装并启动 Cassandra 因为本文只是简单介绍 Apache Cassandra 的使用,所以本文仅安装单机版的 21:12 tools 1 / 11 Apache Cassandra 快速入门指南(Quick Start) Spark大数据博客 - https://www.iteblog.com 各个文件或目录介绍如下: bin:这个目录下包含了启动 Cassandra 以及客户端相关操作的可执行文件,包括 query language
    0 码力 | 11 页 | 0 Bytes | 1 年前
    3
  • pdf文档 Apache Doris 在美团外卖数仓中的应用实践

    Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com Apache Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado op/Spark分布式大数据技术生态来构建数据仓库,然后对数据进行适当的分层、加工、管理。而 在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL) 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 下的自定义查询,面对如此灵活可变、所见即 1 / 8 Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com 所得的应用场景,美团平台使用Kylin作为公司的主要MOLAP引擎。MOLAP是预计算生产,在增 量业务,预设维度分析场景下表现良
    0 码力 | 8 页 | 429.42 KB | 1 年前
    3
  • pdf文档 Go 构建大型开源分布式数据库技术内幕

    介绍两个有趣的项目 Spark on TiDB TiSpark TiDB + SparkSQL = TiSpark TiKV TiKV TiKV TiKV TiKV TiDB TiDB TiDB TiDB + SparkSQL = TiSpark Spark Master TiKV Connector Data Storage & Coprocessor PD Spark Exec TiKV Connector Spark Exec TiKV Connector Spark Exec Features Beyond Raw Spark ● Index support ● Complex Calculation Pushdown ● CBO ○ Pick up right Access Path ○ Join Reorder Use Case ● Analytical with Spark ○ Possiblility for get rid of Hadoop ● Embrace Spark echo-system ○ Support of complex transformation and analytics with Scala / Python and R ○ Machine Learning Libraries ○ Spark Streaming
    0 码力 | 44 页 | 649.68 KB | 1 年前
    3
  • pdf文档 TiDB v5.2 中文手册

    · · · · · · · · · · · · 46 2.5.3 TiDB TPC-H 性能对比测试报告 - v5.2 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 · · · · · · 48 2.6 与 MySQL 兼容性对比 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · TPC-H 性能对比测试报告 - v5.2 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 2.5.3.1 测试概况 本次测试对比了 TiDB v5.2 MPP 模式下和主流分析引擎例如 Greenplum 和 Apache Spark 最新版在 TPC-H 100 下的性 能表现。结果显示,TiDB v5.2 MPP 模式下相对这些方案有 2-3 中进行了功能优化,这大大幅增强了 TiDB HTAP 形态。 本文的测试对象如下: • TiDB v5.2 MPP 执行模式下的列式存储 • Greenplum 6.15.0 • Apache Spark 3.1.1 + Parquet 48 2.5.3.2 测试环境 2.5.3.2.1 硬件配置 • 节点数量:3 • CPU:Intel(R) Xeon(R) CPU E5-2630 v4
    0 码力 | 2259 页 | 48.16 MB | 1 年前
    3
  • pdf文档 TiDB v5.1 中文手册

    · · · · · · · · · · · · 46 2.5.3 TiDB TPC-H 性能对比测试报告 - v5.1 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 · · · · · · 48 2.6 与 MySQL 兼容性对比 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · TPC-H 性能对比测试报告 - v5.1 MPP 模式对比 Greenplum 6.15.0 以及 Apache Spark 3.1.1 2.5.3.1 测试概况 本次测试对比了 TiDB v5.1 MPP 模式下和主流分析引擎例如 Greenplum 和 Apache Spark 最新版在 TPC-H 100 下的性 能表现。结果显示,TiDB v5.1 MPP 模式下相对这些方案有 2-3 组件的 MPP 模式,这大幅增强了 TiDB HTAP 形态。本文的测试对象如下: • TiDB v5.1 MPP 执行模式下的列式存储 • Greenplum 6.15.0 • Apache Spark 3.1.1 + Parquet 2.5.3.2 测试环境 48 2.5.3.2.1 硬件配置 • 节点数量:3 • CPU:Intel(R) Xeon(R) CPU E5-2630 v4
    0 码力 | 2189 页 | 47.96 MB | 1 年前
    3
共 97 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10
前往
页
相关搜索词
Spark简介以及Hadoop对比MATLAB集成实现数据处理价值全球架构架构师峰会2019北京Kubernetes运行工作负载探索实践mdashOzone原生分布布式分布式对象存储TiDB中文技术文档ApacheCassandra快速入门指南QuickStartApache Doris美团Go构建大型开源据库数据库内幕v5手册
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩