联邦学习 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum机器学习⼯具集和案例

com www.top100summit.com Greenplum机器器学习⼯工具集和案例例姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例⼤大纲 2017.thegiac.com Greenplum: 新一代开源大数据平台完善的标准支持：SQL、JDBC、ODBC • 集成数据平台：BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码，持续大力投入 • 敏捷方法学：快速迭代、持续发布、质量内建 • 企业级稳定性，成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X：各种语言实现自定义函数（存储过程） MADLib: 数据挖掘、统计分析、图（Graph）等算法 • GPText：文本检索和分析 • GeoSpatial：地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum Procedure Language PLPython, PLR 2017.thegiac.com PL/Python

0 码力 | 58 页 | 1.97 MB | 1 年前
3
SelectDB案例从 ClickHouse 到 Apache Doris

严重，牵一发而动全身，容易出现集群稳定性问题，对于我们来说，同时维护 ClickHouse 和 Elasticsearch 两套引擎的连接与查询，成本和难度都比较高。除此之外，ClickHouse 由国外开源，交流具有一定的语言学习成本，遇到问题无法准确反馈、无法快速获得解决，与社区沟通上的阻塞也是促进我们进行架构升级的因素之一。数据架构 2.0 3 基于架构 1.0 存在的问题和 ClickHouse SQL。  支持丰富的数据模型，可满足多种数据更新方式，支持部分列更新。  支持对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查询分析。  导入方式多样，支持从 HDFS/S3 等远端存储批量导入，也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据，还可以通过 Flink Connector 实现进一步的聚合，减轻了 Doris 和 ES 的更新压力）。  加速层：该层主要将大宽表拆为小宽表，根据更新频率配置不同的分区策略，减小数据冗余带来的存储压力，提高查询吞吐量。Doris 具备多表查询和联邦查询性能特性，可以利用多表关联特性实现组合查询。  应用层：DataSet 统一指向 Doris，Doris 支持外表查询，利用该特性可对 ES 引擎直接查询。架构 2.0 存在的问题：

0 码力 | 12 页 | 1.55 MB | 1 年前
3
Apache ShardingSphere v5.5.0 中文文档

50 Logging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 8.11 联邦查询 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 8.11.1 ShardingSphere document • 业务零侵入面对数据库替换场景，ShardingSphere 可满足业务无需改造，实现平滑业务迁移。 • 运维低成本在保留原技术栈不变前提下，对 DBA 学习、管理成本低，交互友好。 • 安全稳定基于成熟数据库底座之上提供增量能力，兼顾安全性及稳定性。 • 弹性扩展具备计算、存储平滑在线扩展能力，可满足业务多变的需求。 • 开放生态通过更多信息。 8.11 联邦查询 8.11.1 背景当用户使用数据分片对海量数据进行水平拆分时，虽然能够有效解决数据库性能瓶颈，但业务上也因此带来了一些新的问题。例如以下场景：跨节点关联查询、子查询、分页、排序、聚合查询。在进行业务实现时需要注意查询 SQL 的使用范围，尽量避免跨数据库实例查询，这使得业务层面的功能受到了数据库的限制。 8.11. 联邦查询 50 Apache

0 码力 | 557 页 | 4.61 MB | 1 年前
3
云时代下多数据计算引擎的设计与实现

OpenPie Confidential 多计算引擎内置计算引擎 Postgres执行器全新的向量化执行引擎向量数据库单机和分布式 Spark 客户依赖跑批任务机器学习 …… ... 按需增加 @2024 OpenPie. All rights reserved. OpenPie Confidential 产品子功能太多分支？ • 抽象的⽂件协议接⼝ OpenPie Confidential 计算外延 • 仓湖一体：仓衍生支持开源表格式 • 先读，Iceberg on hdfs/s3读取已基本支持. • 长远不排除”一等公民”. • 联邦查询. @2024 OpenPie. All rights reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie

0 码力 | 15 页 | 3.09 MB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

materization，...... 分布式计算引擎 • MPP弹性计算引擎：按需付费 • 租户隔离（彼此不影响） • ⾼可⽤（⾃动处理各种错误） • ⾼并发 PieCloudDB⽣态 • 各种外表数据源联邦查询组件天然⽀持（或者需少量修改） • 各种Postgres/Greenplum组件或者功能天然⽀持，如In- database AI组件Madlib, json, text等 • 实时ETL/ELT性能对⽐PieCloudDB 的将来 • 理想的PieCloudDB：可靠、⾼效、简单、完备的SQL数据平台，让⽤户能专注于应⽤ • 不论存储、计算、⽣态还是智能平台都还有不少有挑战性的事情 • 我们需要优秀⼈才的加⼊（学习动⼿能⼒、创新能⼒、⾃驱、团队精神）

0 码力 | 31 页 | 1.43 MB | 1 年前
3
Doris的数据导入机制以及原子性保证

（多版本机制）（两阶段导入）事务能力保证使用案例 04 BI Application 数据加载数据输出数据查询数据导入总览 • 多源数据加载：HDFS、Kafka、本地数据 • 联邦数据查询：Spark • 多源数据访问：ES、MySQL • 通用协议输出：JDBC、ANSI SQL • 多种数据格式支持：文本、PARQUET、ORC 04 使用案例导入方式 04

0 码力 | 33 页 | 21.95 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 流处理在线系统扩展任务管理服务加载 & 数据联邦高速数据加载近实时数据加载任意系统数据访问存储 & 数据访问混合存储引擎（行存&列存）多种压缩，多级分区表索引（B树，位图，GiST）安全性语言支持标准SQL支持，SQL

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Apache ShardingSphere 中文文档 5.2.0

高可用实现整体的高可用能力。数据迁移数据迁移，是打通数据生态的关键能力。SharingSphere 提供基于数据全场景的迁移能力，可应对业务数据量激增的场景。联邦查询联邦查询，是面对复杂数据环境下利用数据的有效手段之一。ShardingSphere 提供跨数据源的复杂数据查询分析能力，简化并提升数据使用体验。数据加密数据加密，是保证数据安全的基本手段。ShardingSphere JDBC 规范的数据库。 • 业务零侵入面对数据库替换场景，ShardingSphere 可满足业务无需改造，实现平滑业务迁移。 • 运维低成本在保留原技术栈不变前提下，对 DBA 学习、管理成本低，交互友好。 • 安全稳定基于成熟数据库底座之上提供增量能力，兼顾安全性及稳定性。 • 弹性扩展具备计算、存储平滑在线扩展能力，可满足业务多变的需求。 • 开放生态通过择使用内存限制模式或连接限制模式。这种解决方案将两难的选择的决定权交由用户，使得用户必须要了解这两种模式的利弊，并依据业务场景需求进行选择。这无疑增加了用户对 ShardingSphere 的学习和使用的成本，并非最优方案。这种一分为二的处理方案，将两种模式的切换交由静态的初始化配置，是缺乏灵活应对能力的。在实际的使用场景中，面对不同 SQL 以及占位符参数，每次的路由结果是不同的。这就意味着某些操作可能需要使

0 码力 | 449 页 | 5.85 MB | 1 年前
3
Apache ShardingSphere 中文文档 5.4.1

ShardingSphere document • 业务零侵入面对数据库替换场景，ShardingSphere 可满足业务无需改造，实现平滑业务迁移。 • 运维低成本在保留原技术栈不变前提下，对 DBA 学习、管理成本低，交互友好。 • 安全稳定基于成熟数据库底座之上提供增量能力，兼顾安全性及稳定性。 • 弹性扩展具备计算、存储平滑在线扩展能力，可满足业务多变的需求。 • 开放生态通过 117 Apache ShardingSphere document • org.apache.shardingsphere:shardingsphere-sql-federation-core，联邦查询执行器核心 • org.apache.shardingsphere:shardingsphere-sql-parser-mysql，SQL 解析的 MySQL 方言实现 • org.apache 择使用内存限制模式或连接限制模式。这种解决方案将两难的选择的决定权交由用户，使得用户必须要了解这两种模式的利弊，并依据业务场景需求进行选择。这无疑增加了用户对 ShardingSphere 的学习和使用的成本，并非最优方案。这种一分为二的处理方案，将两种模式的切换交由静态的初始化配置，是缺乏灵活应对能力的。在实际的使用场景中，面对不同 SQL 以及占位符参数，每次的路由结果是不同的。这就意味着某些操作可能需要使

0 码力 | 530 页 | 4.49 MB | 1 年前
3
Apache ShardingSphere 中文文档 5.3.2

ShardingSphere document • 业务零侵入面对数据库替换场景，ShardingSphere 可满足业务无需改造，实现平滑业务迁移。 • 运维低成本在保留原技术栈不变前提下，对 DBA 学习、管理成本低，交互友好。 • 安全稳定基于成熟数据库底座之上提供增量能力，兼顾安全性及稳定性。 • 弹性扩展具备计算、存储平滑在线扩展能力，可满足业务多变的需求。 • 开放生态通过 ngle-core，单表（所有的分片数据源中仅唯一存在的表）核心 • org.apache.shardingsphere:shardingsphere-sql-federation-core，联邦查询执行器核心 • org.apache.shardingsphere:shardingsphere-sql-parser-mysql，SQL 解析的 MySQL 方言实现 • org.apache 择使用内存限制模式或连接限制模式。这种解决方案将两难的选择的决定权交由用户，使得用户必须要了解这两种模式的利弊，并依据业务场景需求进行选择。这无疑增加了用户对 ShardingSphere 的学习和使用的成本，并非最优方案。这种一分为二的处理方案，将两种模式的切换交由静态的初始化配置，是缺乏灵活应对能力的。在实际的使用场景中，面对不同 SQL 以及占位符参数，每次的路由结果是不同的。这就意味着某些操作可能需要使

0 码力 | 508 页 | 4.44 MB | 1 年前
3

共 60 条前往

页

分类

语言

格式