影子算法 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

大数据带来的挑战 ▪ 传统的工具和方法不能有效工作 – 访问和处理数据变得困难； – 需要学习使用新的工具和新的编程方式； – 不得不重写算法以应对数据规模的增大； ▪ 现有处理或计算方法下的结果质量受到影响 – 被迫只能处理一部分数据（数据子集）； – 采用新的工具或重写算法会对现有生产力产生影响； ▪ 数据处理与分析所需时间增长 – 数据规模增大、数据复杂度增加，增加处理难度和所需时间； 5 MATLAB的大数据处理能力的数据集合 ▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归 7 tall array Single Machine Memory tall arrays ▪ 自动将数据分解成适合内存的小 “块”(chunk) ▪ 计算过程中，一次处理一个“块”(chunk) Tall支持的大数据可视化 ▪ plot ▪ scatter ▪ binscatter ▪ histogram ▪ histogram2 ▪ ksdensity 15 tall 支持的大数据机器学习算法 – K-means Clustering (kmeans) – Linear Regression (fitlm) – Logistic & Generalized Linear Regression

0 码力 | 17 页 | 1.64 MB | 1 年前
3
Spark 简介以及与 Hadoop 的对比

1.1 Spark 概述 Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用的并行计算框架，Spark 基于 map reduce 算法实现的分布式计算，拥有 Hadoop MapReduce 所具有的优点；但不同于 MapReduce 的是 Job 中间输出和结果可以保存在内存中，从而不再需要读写 HDFS，因此 Spark cache 到内存中，每次对 RDD 数据集的操作之后的结果，都可以存放到内存中，下一个操作可以直接从内存中输入，省去了 MapReduce 大量的磁盘 IO 操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说，效率提升比较大。 1.2.2 RDD 的转换与操作对于 RDD 可以有两种计算方式：转换（返回值还是一个 RDD）与操作（返回值不是一个 RDD） 1. 转换(Transformations)

0 码力 | 3 页 | 172.14 KB | 1 年前
3
大数据时代的Intel之Hadoop

企业用户需要的增强功能，例如：提供跨数据中心的 HBase 数据库虚拟大表功能，实现 HBase 数据库复制和备仹功能，等等。提供底层 Hadoop 性能优化算法和稳定性增强 •基亍 Hadoop 底层的大量优化算法，配合英特尔优化架构，使应用效率更高、计算存储分布更均衡，系统安装程序计算得出的优化参数配置，适合大多数应用情冴，不硬件技术相结合，提高平台性能提供企业必须的管理和监控功能

0 码力 | 36 页 | 2.50 MB | 1 年前
3
Hadoop 概述

便是用 MapReduce 来处理它。 1.1.3 MapReduce 是什么 MapReduce 是 Hadoop 的一个编程组件，用于处理和读取大型数据集。MapReduce 算法赋予了 Hadoop 并行化处理数据的能力。简而言之，MapReduce 用于将大量数据浓缩为有意义的统计分析结果。MapReduce 可以执行批处理作业，即能在处理过程中多次读取大量数据来产生所需的结果。

0 码力 | 17 页 | 583.90 KB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

OSS 非结构化进行处理； * 使用 Spark 面向 MaxCompute 内外部数据开展机器学习，扩展应用场景；机器学习 PAI MaxCompute 内建支持的上百种机器学习算法，目前 MaxCompute 的机器学习能力由 PAI 产品进行统一提供服务，同时 PAI 提供了深度学习框架、Notebook 开发环境、GPU 计算资源、模型在线部署的弹性预测服务。

0 码力 | 59 页 | 4.33 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

总数=6），就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。 RS-LEGACY-6-3-1024k：策略和上面的 RS-6-3-1024k 一样，只是编码的算法用的是 rs- legacy。 XOR-2-1-1024k：使用 XOR 编码（速度比 RS 编码快），每 2 个数据单元，生成 1 个校验单元，共 3 个单元，也就是说：这 3 个单元中，只要有任意的

0 码力 | 41 页 | 2.32 MB | 1 年前
3

共 6 条前往

页

MATLAB Spark Hadoop 集成实现数据处理价值简介以及对比大数时代 Intel 概述迁移阿里 MaxCompute 技术方案硅谷生产调优手册

分类

语言

格式

MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

Spark 简介以及与 Hadoop 的对比

大数据时代的Intel之Hadoop

Hadoop 概述

Hadoop 迁移到阿里云MaxCompute 技术方案

尚硅谷大数据技术之Hadoop（生产调优手册）