 Greenplum机器学习⼯具集和案例com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: 新一代开源大数据平台 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure Language PLPython, PLR 2017.thegiac.com PL/Python0 码力 | 58 页 | 1.97 MB | 1 年前3 Greenplum机器学习⼯具集和案例com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: 新一代开源大数据平台 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure Language PLPython, PLR 2017.thegiac.com PL/Python0 码力 | 58 页 | 1.97 MB | 1 年前3
 SelectDB案例 从 ClickHouse 到 Apache Doris严重,牵一发而动全身,容易出现集群稳定性问题,对于我们来说,同时维护 ClickHouse 和 Elasticsearch 两套引擎的连接与查询,成本和难度都比较高。 除此之外,ClickHouse 由国外开源,交流具有一定的语言学习成本,遇到问题无法准确反 馈、无法快速获得解决,与社区沟通上的阻塞也是促进我们进行架构升级的因素之一。 数据架构 2.0 3 基于架构 1.0 存在的问题和 ClickHouse SQL。  支持丰富的数据模型,可满足多种数据更新方式,支持部分列更新。  支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查 询分析。  导入方式多样,支持从 HDFS/S3 等远端存储批量导入,也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据,还可以通过 Flink Connector 实现进一步的聚合,减轻了 Doris 和 ES 的更新压力)。  加速层:该层主要将大宽表拆为小宽表,根据更新频率配置不同的分区策略,减小 数据冗余带来的存储压力,提高查询吞吐量。Doris 具备多表查询和联邦查询性能 特性,可以利用多表关联特性实现组合查询。  应用层:DataSet 统一指向 Doris,Doris 支持外表查询,利用该特性可对 ES 引擎 直接查询。 架构 2.0 存在的问题:0 码力 | 12 页 | 1.55 MB | 1 年前3 SelectDB案例 从 ClickHouse 到 Apache Doris严重,牵一发而动全身,容易出现集群稳定性问题,对于我们来说,同时维护 ClickHouse 和 Elasticsearch 两套引擎的连接与查询,成本和难度都比较高。 除此之外,ClickHouse 由国外开源,交流具有一定的语言学习成本,遇到问题无法准确反 馈、无法快速获得解决,与社区沟通上的阻塞也是促进我们进行架构升级的因素之一。 数据架构 2.0 3 基于架构 1.0 存在的问题和 ClickHouse SQL。  支持丰富的数据模型,可满足多种数据更新方式,支持部分列更新。  支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查 询分析。  导入方式多样,支持从 HDFS/S3 等远端存储批量导入,也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据,还可以通过 Flink Connector 实现进一步的聚合,减轻了 Doris 和 ES 的更新压力)。  加速层:该层主要将大宽表拆为小宽表,根据更新频率配置不同的分区策略,减小 数据冗余带来的存储压力,提高查询吞吐量。Doris 具备多表查询和联邦查询性能 特性,可以利用多表关联特性实现组合查询。  应用层:DataSet 统一指向 Doris,Doris 支持外表查询,利用该特性可对 ES 引擎 直接查询。 架构 2.0 存在的问题:0 码力 | 12 页 | 1.55 MB | 1 年前3
 Apache ShardingSphere v5.5.0 中文文档50 Logging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 8.11 联邦查询 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 8.11.1 ShardingSphere document • 业务零侵入 面对数据库替换场景,ShardingSphere 可满足业务无需改造,实现平滑业务迁移。 • 运维低成本 在保留原技术栈不变前提下,对 DBA 学习、管理成本低,交互友好。 • 安全稳定 基于成熟数据库底座之上提供增量能力,兼顾安全性及稳定性。 • 弹性扩展 具备计算、存储平滑在线扩展能力,可满足业务多变的需求。 • 开放生态 通过 更多信息。 8.11 联邦查询 8.11.1 背景 当用户使用数据分片对海量数据进行水平拆分时,虽然能够有效解决数据库性能瓶颈,但业务上也因此 带来了一些新的问题。例如以下场景:跨节点关联查询、子查询、分页、排序、聚合查询。在进行业务实 现时需要注意查询 SQL 的使用范围,尽量避免跨数据库实例查询,这使得业务层面的功能受到了数据库 的限制。 8.11. 联邦查询 50 Apache0 码力 | 557 页 | 4.61 MB | 1 年前3 Apache ShardingSphere v5.5.0 中文文档50 Logging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 8.11 联邦查询 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 8.11.1 ShardingSphere document • 业务零侵入 面对数据库替换场景,ShardingSphere 可满足业务无需改造,实现平滑业务迁移。 • 运维低成本 在保留原技术栈不变前提下,对 DBA 学习、管理成本低,交互友好。 • 安全稳定 基于成熟数据库底座之上提供增量能力,兼顾安全性及稳定性。 • 弹性扩展 具备计算、存储平滑在线扩展能力,可满足业务多变的需求。 • 开放生态 通过 更多信息。 8.11 联邦查询 8.11.1 背景 当用户使用数据分片对海量数据进行水平拆分时,虽然能够有效解决数据库性能瓶颈,但业务上也因此 带来了一些新的问题。例如以下场景:跨节点关联查询、子查询、分页、排序、聚合查询。在进行业务实 现时需要注意查询 SQL 的使用范围,尽量避免跨数据库实例查询,这使得业务层面的功能受到了数据库 的限制。 8.11. 联邦查询 50 Apache0 码力 | 557 页 | 4.61 MB | 1 年前3
 云时代下多数据计算引擎的设计与实现OpenPie Confidential 多计算引擎 内置计算引擎 Postgres执行器 全新的向量化执行引 擎 向量数据库 单机和分布式 Spark 客户依赖 跑批任务 机器学习 …… ... 按需增加 @2024 OpenPie. All rights reserved. OpenPie Confidential 产品子功能 太多分支? • 抽象的⽂件协议接⼝ OpenPie Confidential 计算外延 • 仓湖一体:仓衍生支持开源表格式 • 先读,Iceberg on hdfs/s3读取已基本支持. • 长远不排除”一等公民”. • 联邦查询. @2024 OpenPie. All rights reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie0 码力 | 15 页 | 3.09 MB | 1 年前3 云时代下多数据计算引擎的设计与实现OpenPie Confidential 多计算引擎 内置计算引擎 Postgres执行器 全新的向量化执行引 擎 向量数据库 单机和分布式 Spark 客户依赖 跑批任务 机器学习 …… ... 按需增加 @2024 OpenPie. All rights reserved. OpenPie Confidential 产品子功能 太多分支? • 抽象的⽂件协议接⼝ OpenPie Confidential 计算外延 • 仓湖一体:仓衍生支持开源表格式 • 先读,Iceberg on hdfs/s3读取已基本支持. • 长远不排除”一等公民”. • 联邦查询. @2024 OpenPie. All rights reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie0 码力 | 15 页 | 3.09 MB | 1 年前3
 云原生数据库 PieCloudDB eMPP架构设计与实现materization,...... 分布式计算引擎 • MPP弹性计算引擎:按需付费 • 租户隔离(彼此不影响) • ⾼可⽤(⾃动处理各种错误) • ⾼并发 PieCloudDB⽣态 • 各种外表数据源联邦查询组件天然⽀持(或者需少量修改) • 各种Postgres/Greenplum组件或者功能天然⽀持,如In- database AI组件Madlib, json, text等 • 实时ETL/ELT性能对⽐PieCloudDB 的将来 • 理想的PieCloudDB:可靠、⾼效、简单、完备的SQL数据平台, 让⽤户能专注于应⽤ • 不论存储、计算、⽣态还是智能平台都还有不少有挑战性的事情 • 我们需要优秀⼈才的加⼊(学习动⼿能⼒、创新能⼒、⾃驱、团 队精神)0 码力 | 31 页 | 1.43 MB | 1 年前3 云原生数据库 PieCloudDB eMPP架构设计与实现materization,...... 分布式计算引擎 • MPP弹性计算引擎:按需付费 • 租户隔离(彼此不影响) • ⾼可⽤(⾃动处理各种错误) • ⾼并发 PieCloudDB⽣态 • 各种外表数据源联邦查询组件天然⽀持(或者需少量修改) • 各种Postgres/Greenplum组件或者功能天然⽀持,如In- database AI组件Madlib, json, text等 • 实时ETL/ELT性能对⽐PieCloudDB 的将来 • 理想的PieCloudDB:可靠、⾼效、简单、完备的SQL数据平台, 让⽤户能专注于应⽤ • 不论存储、计算、⽣态还是智能平台都还有不少有挑战性的事情 • 我们需要优秀⼈才的加⼊(学习动⼿能⼒、创新能⼒、⾃驱、团 队精神)0 码力 | 31 页 | 1.43 MB | 1 年前3
 Doris的数据导入机制以及原子性保证(多版本机制) (两阶段导入) 事务能力保证 使用案例 04 BI Application 数据加载 数据输出 数据查询 数据导入总览 • 多源数据加载:HDFS、Kafka、本地数据 • 联邦数据查询:Spark • 多源数据访问:ES、MySQL • 通用协议输出:JDBC、ANSI SQL • 多种数据格式支持: 文本、PARQUET、ORC 04 使用案例 导入方式 040 码力 | 33 页 | 21.95 MB | 1 年前3 Doris的数据导入机制以及原子性保证(多版本机制) (两阶段导入) 事务能力保证 使用案例 04 BI Application 数据加载 数据输出 数据查询 数据导入总览 • 多源数据加载:HDFS、Kafka、本地数据 • 联邦数据查询:Spark • 多源数据访问:ES、MySQL • 通用协议输出:JDBC、ANSI SQL • 多种数据格式支持: 文本、PARQUET、ORC 04 使用案例 导入方式 040 码力 | 33 页 | 21.95 MB | 1 年前3
 Greenplum数据库架构分析及5.x新功能分享ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载 近实时数据加载 任意系统数据访问 存储 & 数据访问 混合存储引擎(行存&列存) 多种压缩,多级分区表 索引(B树,位图,GiST) 安全性 语言支持 标准SQL支持,SQL0 码力 | 44 页 | 8.35 MB | 1 年前3 Greenplum数据库架构分析及5.x新功能分享ODBC, JDBC, OLEDB, etc. 核心MPP 架构 并行数据流引擎 高速软数据交换机制 MPP Scatter/Gather 流处理 在线系统扩展 任务管理 服务 加载 & 数据联邦 高速数据加载 近实时数据加载 任意系统数据访问 存储 & 数据访问 混合存储引擎(行存&列存) 多种压缩,多级分区表 索引(B树,位图,GiST) 安全性 语言支持 标准SQL支持,SQL0 码力 | 44 页 | 8.35 MB | 1 年前3
 Apache ShardingSphere 中文文档 5.2.0高可用实现整体的高可用能力。 数 据 迁移 数据迁移,是打通数据生态的关键能力。SharingSphere 提供基于数据全场景的迁移能力,可 应对业务数据量激增的场景。 联 邦 查询 联邦查询,是面对复杂数据环境下利用数据的有效手段之一。ShardingSphere 提供跨数据源 的复杂数据查询分析能力,简化并提升数据使用体验。 数 据 加密 数据加密,是保证数据安全的基本手段。ShardingSphere JDBC 规范的数 据库。 • 业务零侵入 面对数据库替换场景,ShardingSphere 可满足业务无需改造,实现平滑业务迁移。 • 运维低成本 在保留原技术栈不变前提下,对 DBA 学习、管理成本低,交互友好。 • 安全稳定 基于成熟数据库底座之上提供增量能力,兼顾安全性及稳定性。 • 弹性扩展 具备计算、存储平滑在线扩展能力,可满足业务多变的需求。 • 开放生态 通过 择使用内存限制模式或连接限制模式。 这种解决方案将两难的选择的决定权交由用户,使得用户必须要了解这两种模式的利弊,并依据业务场 景需求进行选择。这无疑增加了用户对 ShardingSphere 的学习和使用的成本,并非最优方案。 这种一分为二的处理方案,将两种模式的切换交由静态的初始化配置,是缺乏灵活应对能力的。在实际的 使用场景中,面对不同 SQL 以及占位符参数,每次的路由结果是不同的。这就意味着某些操作可能需要使0 码力 | 449 页 | 5.85 MB | 1 年前3 Apache ShardingSphere 中文文档 5.2.0高可用实现整体的高可用能力。 数 据 迁移 数据迁移,是打通数据生态的关键能力。SharingSphere 提供基于数据全场景的迁移能力,可 应对业务数据量激增的场景。 联 邦 查询 联邦查询,是面对复杂数据环境下利用数据的有效手段之一。ShardingSphere 提供跨数据源 的复杂数据查询分析能力,简化并提升数据使用体验。 数 据 加密 数据加密,是保证数据安全的基本手段。ShardingSphere JDBC 规范的数 据库。 • 业务零侵入 面对数据库替换场景,ShardingSphere 可满足业务无需改造,实现平滑业务迁移。 • 运维低成本 在保留原技术栈不变前提下,对 DBA 学习、管理成本低,交互友好。 • 安全稳定 基于成熟数据库底座之上提供增量能力,兼顾安全性及稳定性。 • 弹性扩展 具备计算、存储平滑在线扩展能力,可满足业务多变的需求。 • 开放生态 通过 择使用内存限制模式或连接限制模式。 这种解决方案将两难的选择的决定权交由用户,使得用户必须要了解这两种模式的利弊,并依据业务场 景需求进行选择。这无疑增加了用户对 ShardingSphere 的学习和使用的成本,并非最优方案。 这种一分为二的处理方案,将两种模式的切换交由静态的初始化配置,是缺乏灵活应对能力的。在实际的 使用场景中,面对不同 SQL 以及占位符参数,每次的路由结果是不同的。这就意味着某些操作可能需要使0 码力 | 449 页 | 5.85 MB | 1 年前3
 Apache ShardingSphere 中文文档 5.4.1ShardingSphere document • 业务零侵入 面对数据库替换场景,ShardingSphere 可满足业务无需改造,实现平滑业务迁移。 • 运维低成本 在保留原技术栈不变前提下,对 DBA 学习、管理成本低,交互友好。 • 安全稳定 基于成熟数据库底座之上提供增量能力,兼顾安全性及稳定性。 • 弹性扩展 具备计算、存储平滑在线扩展能力,可满足业务多变的需求。 • 开放生态 通过 117 Apache ShardingSphere document • org.apache.shardingsphere:shardingsphere-sql-federation-core,联邦查询执行 器核心 • org.apache.shardingsphere:shardingsphere-sql-parser-mysql,SQL 解析的 MySQL 方言实现 • org.apache 择使用内存限制模式或连接限制模式。 这种解决方案将两难的选择的决定权交由用户,使得用户必须要了解这两种模式的利弊,并依据业务场 景需求进行选择。这无疑增加了用户对 ShardingSphere 的学习和使用的成本,并非最优方案。 这种一分为二的处理方案,将两种模式的切换交由静态的初始化配置,是缺乏灵活应对能力的。在实际的 使用场景中,面对不同 SQL 以及占位符参数,每次的路由结果是不同的。这就意味着某些操作可能需要使0 码力 | 530 页 | 4.49 MB | 1 年前3 Apache ShardingSphere 中文文档 5.4.1ShardingSphere document • 业务零侵入 面对数据库替换场景,ShardingSphere 可满足业务无需改造,实现平滑业务迁移。 • 运维低成本 在保留原技术栈不变前提下,对 DBA 学习、管理成本低,交互友好。 • 安全稳定 基于成熟数据库底座之上提供增量能力,兼顾安全性及稳定性。 • 弹性扩展 具备计算、存储平滑在线扩展能力,可满足业务多变的需求。 • 开放生态 通过 117 Apache ShardingSphere document • org.apache.shardingsphere:shardingsphere-sql-federation-core,联邦查询执行 器核心 • org.apache.shardingsphere:shardingsphere-sql-parser-mysql,SQL 解析的 MySQL 方言实现 • org.apache 择使用内存限制模式或连接限制模式。 这种解决方案将两难的选择的决定权交由用户,使得用户必须要了解这两种模式的利弊,并依据业务场 景需求进行选择。这无疑增加了用户对 ShardingSphere 的学习和使用的成本,并非最优方案。 这种一分为二的处理方案,将两种模式的切换交由静态的初始化配置,是缺乏灵活应对能力的。在实际的 使用场景中,面对不同 SQL 以及占位符参数,每次的路由结果是不同的。这就意味着某些操作可能需要使0 码力 | 530 页 | 4.49 MB | 1 年前3
 Apache ShardingSphere 中文文档 5.3.2ShardingSphere document • 业务零侵入 面对数据库替换场景,ShardingSphere 可满足业务无需改造,实现平滑业务迁移。 • 运维低成本 在保留原技术栈不变前提下,对 DBA 学习、管理成本低,交互友好。 • 安全稳定 基于成熟数据库底座之上提供增量能力,兼顾安全性及稳定性。 • 弹性扩展 具备计算、存储平滑在线扩展能力,可满足业务多变的需求。 • 开放生态 通过 ngle-core,单表(所有的分片数据源 中仅唯一存在的表)核心 • org.apache.shardingsphere:shardingsphere-sql-federation-core,联邦查询执行 器核心 • org.apache.shardingsphere:shardingsphere-sql-parser-mysql,SQL 解析的 MySQL 方言实现 • org.apache 择使用内存限制模式或连接限制模式。 这种解决方案将两难的选择的决定权交由用户,使得用户必须要了解这两种模式的利弊,并依据业务场 景需求进行选择。这无疑增加了用户对 ShardingSphere 的学习和使用的成本,并非最优方案。 这种一分为二的处理方案,将两种模式的切换交由静态的初始化配置,是缺乏灵活应对能力的。在实际的 使用场景中,面对不同 SQL 以及占位符参数,每次的路由结果是不同的。这就意味着某些操作可能需要使0 码力 | 508 页 | 4.44 MB | 1 年前3 Apache ShardingSphere 中文文档 5.3.2ShardingSphere document • 业务零侵入 面对数据库替换场景,ShardingSphere 可满足业务无需改造,实现平滑业务迁移。 • 运维低成本 在保留原技术栈不变前提下,对 DBA 学习、管理成本低,交互友好。 • 安全稳定 基于成熟数据库底座之上提供增量能力,兼顾安全性及稳定性。 • 弹性扩展 具备计算、存储平滑在线扩展能力,可满足业务多变的需求。 • 开放生态 通过 ngle-core,单表(所有的分片数据源 中仅唯一存在的表)核心 • org.apache.shardingsphere:shardingsphere-sql-federation-core,联邦查询执行 器核心 • org.apache.shardingsphere:shardingsphere-sql-parser-mysql,SQL 解析的 MySQL 方言实现 • org.apache 择使用内存限制模式或连接限制模式。 这种解决方案将两难的选择的决定权交由用户,使得用户必须要了解这两种模式的利弊,并依据业务场 景需求进行选择。这无疑增加了用户对 ShardingSphere 的学习和使用的成本,并非最优方案。 这种一分为二的处理方案,将两种模式的切换交由静态的初始化配置,是缺乏灵活应对能力的。在实际的 使用场景中,面对不同 SQL 以及占位符参数,每次的路由结果是不同的。这就意味着某些操作可能需要使0 码力 | 508 页 | 4.44 MB | 1 年前3
共 60 条
- 1
- 2
- 3
- 4
- 5
- 6













