MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖MathWorks, Inc. MATLAB与Spark/Hadoop相集成:实现大 数据的处理和价值挖 马文辉 2 内容 ▪ 大数据及其带来的挑战 ▪ MATLAB大数据处理 ➢ tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 ▪ 应用演示 数据规模增大、数据复杂度增加,增加处理难度和所需时间; 5 MATLAB的大数据处理 ▪ 编程 ▪ Streaming ▪ Block Processing ▪ Parallel-for loops ▪ GPU Arrays ▪ SPMD and Distributed Arrays ▪ MapReduce ▪ MapReduce (MDCS/PCT) ▪ MATLAB API for Spark API ImageDatastore 6 tall arrays ▪ tall array – 一种新的数据类型,专门用于处理大数据. – 用于处理数据规模超过单个机器或群集的内存承载能力的数据集合 ▪ 使用方式等同于MATLAB 数组(array) – 支持数据类型包括数值型、字符串、时间类型、表等… – 支持众多基本的数学函数、统计函数、索引函数等. – 支持机器学习算法包括分类、聚类和回归 7 tall0 码力 | 17 页 | 1.64 MB | 1 年前3
Go vs. GoPlus(Go+)(1995) • Ruby (1995) 脚本语言是集中性大爆发的 大概也就是在 Java 出现的那个年代 数据科学语言发展史 (TOP50) • SQL (1973) • SAS (1976) • MATLAB (1984) • Python (1991) • R (2000) • Julia (2009) • Go+ (2020) 数据科学的发展古老而漫长 但开始进入加速期 语言发展史的启发 • 数据科学是计算机的最初需求,历史悠久但进步缓慢 -因为数据大爆发的时代一直没有到来 02 数据科学的发展 数据科学的原始时期:数学软件时代 • SQL (1973) • SAS (1976) • MATLAB (1984) • Excel (1985) • Limited Domains (有限领域) ,比如 BI (Business Intelligence) • Limited Data (有限数据规模) 时代 • 从前 -Limited Domains (有限领域): 比如 BI (Business Intelligence) -Limited Data (有限数据规模): 比如 Excel、Matlab • 未来 -Full Domains (全领域): 智能应用 (Intelligent Application) • 典型代表:抖音、快手 -Big Data (大规模数据) -Any0 码力 | 54 页 | 1.82 MB | 1 年前3
Julia 中文文档someone or something? . . . . . . . . . . . . . . . . . . . . . . . . . . . 357 Why don’t you compile Matlab/Python/R/⋯code to Julia? . . . . . . . . . . . . . . . . . . . . . 357 38.2 会话和 REPL . . . . . or nightly version of Julia? . . . . . . . . . . . . . . . . . . . 372 39 与其他语言的显著差异 375 39.1 与 MATLAB 的显著差异 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 375 39.2 与 R 的显著差异 拥有可选类型标注和多重派发这两个特性,同时还拥有很棒的性能。这些都得归功于使用 LLVM 实现的类型推导和即时编译(JIT)技术。Julia 是一门支持过程式、函数式和面向对象的多范式语言。 它像 R、MATLAB 和 Python 一样简单,在高级数值计算方面有丰富的表现力,并且支持通用编程。为 了实现这个目标,Julia 以数学编程语言(mathematical programming languages)为基础,同时也参考0 码力 | 1238 页 | 4.59 MB | 1 年前3
基于 Rust Arrow Flight 的物联网和时序数据传输及转换工具 霍琳贺OPC-UA MQTT Broker Clustered Industrial Automated Systems SCADA/HMI Analytics, ML App Python/Matlab/R Java/C/C++/Restful IoT Application Visualization Tool Grafana Web Based Management0 码力 | 29 页 | 2.26 MB | 1 年前3
07 FPGA 助力Python加速计算 陈志勇用户不需要搭建硬件电路就可以对程序进行验证,特别 适合于偏重算法的程序。软件仿真的缺点是无法完全仿 真与硬件相关的部分,因此最终还要通过硬件仿真来完 成最终的设计。 Ø 大部分算法工程师经常做的事情 Ø 大量的仿真软件:Matlab,Simulink Ø 数学建模:核心技术 Ø 硬件仿真:使用附加的硬件来替代用户系统的单片机并 完成单片机全部或大部分的功能。使用了附加硬件后用 户就可以对程序的运行进行控制,例如单步,全速,查0 码力 | 34 页 | 6.89 MB | 1 年前3
2_FPGA助力Python加速计算_陈志勇用户不需要搭建硬件电路就可以对程序进行验证,特别 适合于偏重算法的程序。软件仿真的缺点是无法完全仿 真与硬件相关的部分,因此最终还要通过硬件仿真来完 成最终的设计。 Ø 大部分算法工程师经常做的事情 Ø 大量的仿真软件:Matlab,Simulink Ø 数学建模:核心技术 Ø 硬件仿真:使用附加的硬件来替代用户系统的单片机并 完成单片机全部或大部分的功能。使用了附加硬件后用 户就可以对程序的运行进行控制,例如单步,全速,查0 码力 | 33 页 | 8.99 MB | 1 年前3
FPGA助力Python加速计算 陈志勇 用户不需要搭建硬件电路就可以对程序进行验证,特别 适合于偏重算法的程序。软件仿真的缺点是无法完全仿 真与硬件相关的部分,因此最终还要通过硬件仿真来完 成最终的设计。 ➢ 大部分算法工程师经常做的事情 ➢ 大量的仿真软件:Matlab,Simulink ➢ 数学建模:核心技术 ➢ 硬件仿真:使用附加的硬件来替代用户系统的单片机并 完成单片机全部或大部分的功能。使用了附加硬件后用 户就可以对程序的运行进行控制,例如单步,全速,查0 码力 | 34 页 | 4.19 MB | 1 年前3
机器学习课程-温州大学-numpy使用总结理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大 型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore, NASA 用其处理一些本来使用 C++,Fortran 或 Matlab 等所做的任务。 NumPy是什么? 6 标准的Python中用list(列表)保存值,可以当做数组使用,但因为列表 中的元素可以是任何对象,所以浪费了CPU运算时间和内存。 NumP0 码力 | 49 页 | 1.52 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融 公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些 本来使用C++,Fortran或Matlab等所做的任务。 60 Python模块-NumPy 切片 61 Python模块-NumPy 广播 62 Python模块-Pandas ⚫Pandas Pandas 是基于NumPy0 码力 | 78 页 | 3.69 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融 公司使用,以及核心的科学计算组织如:Lawrence Livermore,NASA用其处理一些 本来使用C++,Fortran或Matlab等所做的任务。 61 Python模块-NumPy 切片 62 Python模块-NumPy 广播 63 Python模块-Pandas ⚫Pandas Pandas 是基于NumPy0 码力 | 80 页 | 5.38 MB | 1 年前3
共 12 条
- 1
- 2













