 πDataCS赋能工业软件创新与实践拥有强⼤的数据库内核研发团队、数据科学团队和数字化 转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景:成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构 价值观:以⼈为本、开放创新、拥抱变化、诚信正直 拓数派中国总部与全球分支机构 海 外 研 发 中 ⼼ 北京研发中⼼ 杭 州 总 总 部 上海全球品牌战略与⽣态发展中⼼ ⼴州研发中⼼ @2024 OpenPie. All rights reserved. OpenPie Confidential 国际顶级创始团队 原 Pivotal 中 国 领 团 队 和 原 Greenplum产品及社区核⼼成员 均已加⼊拓数派。成员毕业自 CMU、北⼤、清华和科⼤少年班 等顶级学术机构,并有成员获有 奥赛奖牌。 郭罡(Paul 获得元⽲重元和东吴证券Pre-A轮投资 标 志着企业进⼊快速成长期 拓数派 正式成立 成立杭州总部、北京研发中⼼、 上海全球品牌战略与⽣态发展中⼼ 蓬勃发展的拓数派 驱动数据计算时代的到来 9月 成立加拿⼤研发中⼼ 7月 PieCloudDB云原⽣数据库存算分离等关键技术打造完成 引领数据库⾏业全面⾛向云时代 8月 成立⼴州研发中⼼ 10月 2022拓数派产品发布会 云原⽣数仓PieCloudDB 社区版与商业版正式发布0 码力 | 36 页 | 4.25 MB | 1 年前3 πDataCS赋能工业软件创新与实践拥有强⼤的数据库内核研发团队、数据科学团队和数字化 转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景:成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构 价值观:以⼈为本、开放创新、拥抱变化、诚信正直 拓数派中国总部与全球分支机构 海 外 研 发 中 ⼼ 北京研发中⼼ 杭 州 总 总 部 上海全球品牌战略与⽣态发展中⼼ ⼴州研发中⼼ @2024 OpenPie. All rights reserved. OpenPie Confidential 国际顶级创始团队 原 Pivotal 中 国 领 团 队 和 原 Greenplum产品及社区核⼼成员 均已加⼊拓数派。成员毕业自 CMU、北⼤、清华和科⼤少年班 等顶级学术机构,并有成员获有 奥赛奖牌。 郭罡(Paul 获得元⽲重元和东吴证券Pre-A轮投资 标 志着企业进⼊快速成长期 拓数派 正式成立 成立杭州总部、北京研发中⼼、 上海全球品牌战略与⽣态发展中⼼ 蓬勃发展的拓数派 驱动数据计算时代的到来 9月 成立加拿⼤研发中⼼ 7月 PieCloudDB云原⽣数据库存算分离等关键技术打造完成 引领数据库⾏业全面⾛向云时代 8月 成立⼴州研发中⼼ 10月 2022拓数派产品发布会 云原⽣数仓PieCloudDB 社区版与商业版正式发布0 码力 | 36 页 | 4.25 MB | 1 年前3
 兼容龙蜥的云原生大模型数据计算系统:πDataCS的 管 理 团 队 具备国际顶级数据库内核研发能力的研发团队 2021 2022 当天即获得头部产业基金天使轮投资 成为Day-1准独角兽 7月 与中国人民大学成立实习基地,打造中国 的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券Pre-A轮投资 标志 着企业进入快速成长期 拓数派 正式成立 成立杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 蓬勃发展的拓数派 驱动数据计算时代的到来 9月 成立加拿大研发中心 7月 PieCloudDB云原生数据库存算分离等关键技术打造完成 引领数据库行业全面走向云时代 8月 成立广州研发中心 10月 2022拓数派产品发布会 云原生数仓PieCloudDB 社区版与商业版正式发布 极速进入成长期 Day-1 2023引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 生态完善,支持主流的开发语言和数据科学工具,支持多模数据处理(结构化、 半结构化以及非结构化),提供标准的SQL接口和API,完成各种复杂场景的数据 处理,业务开发周期短,现存的代码基本可以无缝迁移和复用。 国内自主研发,具备社区版、商业版以及云SaaS服务,与国产软硬件完美兼容, 属于信创产业。支持公有云,可充分利用云资源的弹性能力。组件少,提供可视 化管理平台,运维管理简单,通过短暂学习即可掌握,无论是原厂商还是生态合0 码力 | 29 页 | 7.46 MB | 1 年前3 兼容龙蜥的云原生大模型数据计算系统:πDataCS的 管 理 团 队 具备国际顶级数据库内核研发能力的研发团队 2021 2022 当天即获得头部产业基金天使轮投资 成为Day-1准独角兽 7月 与中国人民大学成立实习基地,打造中国 的云原生数据库世界级智力高地 11月 4月 获得元禾重元和东吴证券Pre-A轮投资 标志 着企业进入快速成长期 拓数派 正式成立 成立杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 蓬勃发展的拓数派 驱动数据计算时代的到来 9月 成立加拿大研发中心 7月 PieCloudDB云原生数据库存算分离等关键技术打造完成 引领数据库行业全面走向云时代 8月 成立广州研发中心 10月 2022拓数派产品发布会 云原生数仓PieCloudDB 社区版与商业版正式发布 极速进入成长期 Day-1 2023引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 生态完善,支持主流的开发语言和数据科学工具,支持多模数据处理(结构化、 半结构化以及非结构化),提供标准的SQL接口和API,完成各种复杂场景的数据 处理,业务开发周期短,现存的代码基本可以无缝迁移和复用。 国内自主研发,具备社区版、商业版以及云SaaS服务,与国产软硬件完美兼容, 属于信创产业。支持公有云,可充分利用云资源的弹性能力。组件少,提供可视 化管理平台,运维管理简单,通过短暂学习即可掌握,无论是原厂商还是生态合0 码力 | 29 页 | 7.46 MB | 1 年前3
 PieCloudDB 的云原生之路标志着企业进入快速成长期 拓数派 正式成立 成立杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 12月 获得腾讯投资第二轮持续加注投资 得到众多知名投资机构的关注和认可 蓬 勃 发 展 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月 杭州萧山区政府“一事一议” 支持政策获批 6月 成立加拿大研发中心 7月 PieCloudDB 云原生数据库存算分离等关键技术打造完成 云原生数据库存算分离等关键技术打造完成 引领数据库行业全面走向云时代 8月 成立广州研发中心 10月 PieCloudDB 社区版与商业版正式发布 极速进入成长期 Day-1 2023 引领数据计算时代到来 1月 PieCloudDB 爱琴海版本发布 构建坚如磐石的 eMPP 云原生数仓 3月 2023拓数派战略暨新产品发布会 重磅发布 PieCloudDB「云上云」版 云原生数仓虚拟化引领数据计算时代到来 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免网络延迟和数据移动,提高计算效率,保 证用户的实时性需求。PieCloudDB 针对底层对象存储设计了 高效的文件格式,可在节省网络请求的同时提高计算效率。 全新的优化器「达奇」 PieCloudDB 可以更智能高效地生成统计信息,并生成更高 效的查询计划,达奇优化器支持聚集下推,预计算,Block0 码力 | 47 页 | 1.80 MB | 1 年前3 PieCloudDB 的云原生之路标志着企业进入快速成长期 拓数派 正式成立 成立杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 12月 获得腾讯投资第二轮持续加注投资 得到众多知名投资机构的关注和认可 蓬 勃 发 展 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月 杭州萧山区政府“一事一议” 支持政策获批 6月 成立加拿大研发中心 7月 PieCloudDB 云原生数据库存算分离等关键技术打造完成 云原生数据库存算分离等关键技术打造完成 引领数据库行业全面走向云时代 8月 成立广州研发中心 10月 PieCloudDB 社区版与商业版正式发布 极速进入成长期 Day-1 2023 引领数据计算时代到来 1月 PieCloudDB 爱琴海版本发布 构建坚如磐石的 eMPP 云原生数仓 3月 2023拓数派战略暨新产品发布会 重磅发布 PieCloudDB「云上云」版 云原生数仓虚拟化引领数据计算时代到来 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免网络延迟和数据移动,提高计算效率,保 证用户的实时性需求。PieCloudDB 针对底层对象存储设计了 高效的文件格式,可在节省网络请求的同时提高计算效率。 全新的优化器「达奇」 PieCloudDB 可以更智能高效地生成统计信息,并生成更高 效的查询计划,达奇优化器支持聚集下推,预计算,Block0 码力 | 47 页 | 1.80 MB | 1 年前3
 PieCloudDB云原生数仓虚拟化之路标志着企业进入快速成长期 拓数派 正式成立 成⽴杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 12月 获得腾讯投资第⼆轮持续加注投资 得到众多知名投资机构的关注和认可 蓬 勃 发 展 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月 杭州萧山区政府“⼀事⼀议”⽀ 持政策获批 6月 成⽴加拿大研发中心 7月 PieCloudDB云原⽣数据库存算分离等关键技术打造完成 键技术打造完成 引领数据库行业全面走向云时代 8月 成⽴广州研发中心 10月 PieCloudDB 社区版与商业版正式发布 极速进入成长期 Day-1 2023 引领数据计算时代到来 1月 PieCloudDB 爱琴海版本发布 构建坚如磐石的eMPP云原生数仓 3月 2023拓数派战略暨新产品发布会 重磅发布PieCloudDB「云上云」版 云原生数仓虚拟化 引领数据计算时代到来 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免⽹络延迟和数据移动,提⾼计算效率,保 证⽤户的实时性需求。PieCloudDB针对底层对象存储设计了 高效的文件格式,可在节省⽹络请求的同时提⾼计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息,并⽣成更⾼ 效的查询计划,达奇优化器支持聚集下推,预计算,Block0 码力 | 44 页 | 1.64 MB | 1 年前3 PieCloudDB云原生数仓虚拟化之路标志着企业进入快速成长期 拓数派 正式成立 成⽴杭州总部、北京研发中心、 上海全球品牌战略与生态发展中心 12月 获得腾讯投资第⼆轮持续加注投资 得到众多知名投资机构的关注和认可 蓬 勃 发 展 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月 杭州萧山区政府“⼀事⼀议”⽀ 持政策获批 6月 成⽴加拿大研发中心 7月 PieCloudDB云原⽣数据库存算分离等关键技术打造完成 键技术打造完成 引领数据库行业全面走向云时代 8月 成⽴广州研发中心 10月 PieCloudDB 社区版与商业版正式发布 极速进入成长期 Day-1 2023 引领数据计算时代到来 1月 PieCloudDB 爱琴海版本发布 构建坚如磐石的eMPP云原生数仓 3月 2023拓数派战略暨新产品发布会 重磅发布PieCloudDB「云上云」版 云原生数仓虚拟化 引领数据计算时代到来 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免⽹络延迟和数据移动,提⾼计算效率,保 证⽤户的实时性需求。PieCloudDB针对底层对象存储设计了 高效的文件格式,可在节省⽹络请求的同时提⾼计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息,并⽣成更⾼ 效的查询计划,达奇优化器支持聚集下推,预计算,Block0 码力 | 44 页 | 1.64 MB | 1 年前3
 Greenplum 精粹文集为什么选择 Postgreeql 做轮子 说到这,也许有同学会问,为什么 Greenplum 要基于 Postgresql? 这个问题大致引申出两个问题: 1) 为什么不从数据库底层进行重新设计研发? 所谓术业有专攻,就像制造跑车的不会亲自生产车轮一样,我们只 要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经 要 强 调 的 是:Greenplum 绝 不 仅 仅 只 是 简 单 的 等 同 于 “Postgresql+interconnect 并行调度 + 分布式事务两阶段提交”, Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 64MB)。 ·MPP 采用 SQL 并行查询计划,Hadoop 采用 Mapreduce 框架。 基于以上不同,体现在效率、功能等特性方面也大不相同。 Big Date2.indd 12 16-11-22 下午3:38 Greenplum 精粹文集 13 1) 计算效率的比较 先说说 Mapreduce 技术。 Mapreduce 相比而言是一种较为蛮力计算方式(业内曾经甚至有 声音质疑0 码力 | 64 页 | 2.73 MB | 1 年前3 Greenplum 精粹文集为什么选择 Postgreeql 做轮子 说到这,也许有同学会问,为什么 Greenplum 要基于 Postgresql? 这个问题大致引申出两个问题: 1) 为什么不从数据库底层进行重新设计研发? 所谓术业有专攻,就像制造跑车的不会亲自生产车轮一样,我们只 要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经 要 强 调 的 是:Greenplum 绝 不 仅 仅 只 是 简 单 的 等 同 于 “Postgresql+interconnect 并行调度 + 分布式事务两阶段提交”, Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模 块,如下这些功能都是 Postgresql 没有提供的: ·外部表并行数据加载 ·可更新数据压缩表 ·行、列混合存储 ·数据表多级分区 ·Bitmap 64MB)。 ·MPP 采用 SQL 并行查询计划,Hadoop 采用 Mapreduce 框架。 基于以上不同,体现在效率、功能等特性方面也大不相同。 Big Date2.indd 12 16-11-22 下午3:38 Greenplum 精粹文集 13 1) 计算效率的比较 先说说 Mapreduce 技术。 Mapreduce 相比而言是一种较为蛮力计算方式(业内曾经甚至有 声音质疑0 码力 | 64 页 | 2.73 MB | 1 年前3
 Greenplum Database 管理员指南 6.2.1在国内建立了一个较大规模的研发团队,越来越多的承担更重要的研发任务,包括 PostgreSQL 的版本合并等,从而,可以为国内商业用户提供更专业和更优质的本地 化服务,用户遇到问题,反馈给专业技术支持人员,或者专业售后服务团队,他们会同 用户一起排查和解决问题,如果有需要,还会保持与研发的持续沟通,虽然以前也是这 种工作模式,但由于时区和语言文化等诸多差异,沟通链路较长,时间较久,研发的本 地化,使得沟通的效率大大提高。 Instance 所在主机配置的 Primary 越多,响应并发的能力越弱,但单个任务的 处理能力越强(这也不是绝对的,当 Primary 数量多到,即便运行单个任务时都会出 现资源争抢,可能运行的效率就会下降)。实际上,每个计算主机的 Primary 个数, 还与其他资源有关,如,磁盘性能,网络性能,内存容量。 内联网络:Interconnect Greenplum Database 对于打算用来做Table Join的Column来说,应该考虑选择相同的数据类型。如 果做Join的Column具有相同的数据类型(例如主键Primary Key与外键Foreign Key),其工作效率会更高。如果两者的数据类型不同,DB还需要将其中一个类型做转 换才可以做关联比较,这种开销是不必要的浪费。 设置 Table 和 Column 的约束 数据类型用来限0 码力 | 416 页 | 6.08 MB | 1 年前3 Greenplum Database 管理员指南 6.2.1在国内建立了一个较大规模的研发团队,越来越多的承担更重要的研发任务,包括 PostgreSQL 的版本合并等,从而,可以为国内商业用户提供更专业和更优质的本地 化服务,用户遇到问题,反馈给专业技术支持人员,或者专业售后服务团队,他们会同 用户一起排查和解决问题,如果有需要,还会保持与研发的持续沟通,虽然以前也是这 种工作模式,但由于时区和语言文化等诸多差异,沟通链路较长,时间较久,研发的本 地化,使得沟通的效率大大提高。 Instance 所在主机配置的 Primary 越多,响应并发的能力越弱,但单个任务的 处理能力越强(这也不是绝对的,当 Primary 数量多到,即便运行单个任务时都会出 现资源争抢,可能运行的效率就会下降)。实际上,每个计算主机的 Primary 个数, 还与其他资源有关,如,磁盘性能,网络性能,内存容量。 内联网络:Interconnect Greenplum Database 对于打算用来做Table Join的Column来说,应该考虑选择相同的数据类型。如 果做Join的Column具有相同的数据类型(例如主键Primary Key与外键Foreign Key),其工作效率会更高。如果两者的数据类型不同,DB还需要将其中一个类型做转 换才可以做关联比较,这种开销是不必要的浪费。 设置 Table 和 Column 的约束 数据类型用来限0 码力 | 416 页 | 6.08 MB | 1 年前3
 TiDB 开源分布式关系型数据库Database》 -二 入造YLDB2020 平交星友和北京银行获得 2020 年度亚洲银行家大奖 -直 机 关于 PingCAP 2015年9月 Tipe在GhHub 上开源 2016年4月 独立研发的基于 Google Spanner 的下一代分布式存鱼 引擎Tiky 开乔 2017年6月 获得华创资本领抽的 1500 万美元的日轮融次 18年4月 -TiDB 2.0 GA版本发布 生-TiSpark 开源分布式关系型数据库 2.4 TiFlash 高性能列式分析引擎 为了真正解决企业级用户在高性能实时数据分析领域的业务需求,我们在 TiDB 已有体系架构的基础上, 结合最先进的列式存储与计算技术,研发而成了 Tiflash 高性能列式分析引擎。 Tiflash 是TiDB 数据库的扩展分析引擎,核心基于列存储引擎和矢量计算引擎, 与 TiDB 紧密集成,通 过Raft Learner副本技术同步数据,对TiDB 方面全面提升北京银行的金融服务能力: *。 提升系统性能: 选择微服务架构与分布式数据库,通过分离处理功能、分散处理压力、扩展处理能 力等措施,保障海唱数据、高并发的业务场景对接,大幅提升交易处理效率。 。 满足安全需求: 基于一致性算法保证交易数据的强一致性,依托数据日志的备份恢复能力,提升数 据可追溯性,满足监管要求,提高自动化运维能力。 *。 具备在线横向扩展能力: 在网联支付与线上贷款两个业务服务集群中,50 码力 | 58 页 | 9.51 MB | 1 年前3 TiDB 开源分布式关系型数据库Database》 -二 入造YLDB2020 平交星友和北京银行获得 2020 年度亚洲银行家大奖 -直 机 关于 PingCAP 2015年9月 Tipe在GhHub 上开源 2016年4月 独立研发的基于 Google Spanner 的下一代分布式存鱼 引擎Tiky 开乔 2017年6月 获得华创资本领抽的 1500 万美元的日轮融次 18年4月 -TiDB 2.0 GA版本发布 生-TiSpark 开源分布式关系型数据库 2.4 TiFlash 高性能列式分析引擎 为了真正解决企业级用户在高性能实时数据分析领域的业务需求,我们在 TiDB 已有体系架构的基础上, 结合最先进的列式存储与计算技术,研发而成了 Tiflash 高性能列式分析引擎。 Tiflash 是TiDB 数据库的扩展分析引擎,核心基于列存储引擎和矢量计算引擎, 与 TiDB 紧密集成,通 过Raft Learner副本技术同步数据,对TiDB 方面全面提升北京银行的金融服务能力: *。 提升系统性能: 选择微服务架构与分布式数据库,通过分离处理功能、分散处理压力、扩展处理能 力等措施,保障海唱数据、高并发的业务场景对接,大幅提升交易处理效率。 。 满足安全需求: 基于一致性算法保证交易数据的强一致性,依托数据日志的备份恢复能力,提升数 据可追溯性,满足监管要求,提高自动化运维能力。 *。 具备在线横向扩展能力: 在网联支付与线上贷款两个业务服务集群中,50 码力 | 58 页 | 9.51 MB | 1 年前3
 Apache Doris 在美团外卖数仓中的应用实践iteblog.com Apache Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的 各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado 应用层模型复杂,根据业务需要以及Kylin生产需要,还要做较多模型预处理。这样在不同 的业务场景中,模型的利用率也比较低。 2. Kylin配置过程繁琐,需要配置模型设计,并配合适当的“剪枝”策略,以实现计算成本与查 询效率的平衡。 3. 由于MOLAP不支持明细数据的查询,在“汇总+明细”的应用场景中,明细数据需要同步到 DBMS引擎来响应交互,增加了生产的运维成本。 4. 较多的预处理伴随着较高的生产成本。0 码力 | 8 页 | 429.42 KB | 1 年前3 Apache Doris 在美团外卖数仓中的应用实践iteblog.com Apache Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的 各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado 应用层模型复杂,根据业务需要以及Kylin生产需要,还要做较多模型预处理。这样在不同 的业务场景中,模型的利用率也比较低。 2. Kylin配置过程繁琐,需要配置模型设计,并配合适当的“剪枝”策略,以实现计算成本与查 询效率的平衡。 3. 由于MOLAP不支持明细数据的查询,在“汇总+明细”的应用场景中,明细数据需要同步到 DBMS引擎来响应交互,增加了生产的运维成本。 4. 较多的预处理伴随着较高的生产成本。0 码力 | 8 页 | 429.42 KB | 1 年前3
 Greenplum 介绍可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分 析的门槛;MADlib 内建于数据库内,使用 MPP 的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。 ● 开放源代码且持续大力投入的平台: 2017 年 Pivotal 在 github 的开源贡献列表中全球排 名第四左右。 年,2008 年发布 Greenplum 数据库产品。2010 年 Greenplum 被 高端存储领域巨头 EMC 收购,同年 Greenplum 借助 EMC 中国卓越研发集团进入中国,并创建 Greenplum 中国研发团队。2014 年 Greenplum 从 EMC 独立出来创立 Pivotal,并获得通用电气、 福特汽车和微软的投资。2018 年 4 月 Pivotal 在纽约证券交易所上市,目前市值0 码力 | 3 页 | 220.42 KB | 1 年前3 Greenplum 介绍可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分 析的门槛;MADlib 内建于数据库内,使用 MPP 的优势,提高了分析的效率;MADlib 可 以在全量数据而不是抽样数据上进行分析,提高了精度。 ● 开放源代码且持续大力投入的平台: 2017 年 Pivotal 在 github 的开源贡献列表中全球排 名第四左右。 年,2008 年发布 Greenplum 数据库产品。2010 年 Greenplum 被 高端存储领域巨头 EMC 收购,同年 Greenplum 借助 EMC 中国卓越研发集团进入中国,并创建 Greenplum 中国研发团队。2014 年 Greenplum 从 EMC 独立出来创立 Pivotal,并获得通用电气、 福特汽车和微软的投资。2018 年 4 月 Pivotal 在纽约证券交易所上市,目前市值0 码力 | 3 页 | 220.42 KB | 1 年前3
 Redis 多数据中心双向同步 祝辰Redis 多数据中心双向同步 祝辰 • 携程框架架构部门 • 资深研发工程师 • 专注于 Redis 高可用系统的 研发工作 • 对分布式存储系统有所涉猎 讲师介绍 祝辰 1 开篇 2 3 4 5 目 录 CONTENTS 携程的Redis架构 分布式理论 双向/多向同步的问题 CRDT 19 世纪的通讯 “At 12:30 am on April 4th idempotent Operation-based Replication State-based Replication • 通常是基于全量状态进行同步, 这样的结果是造成的网络流量 太大, 且同步的效率低下. 在同步机制已经建立的系统中, 我们 更倾向于使用 Op-based replication, 以达到节省流量和快速 同步的目的 Op-based Replication • 基于 unbounded0 码力 | 45 页 | 1.74 MB | 1 年前3 Redis 多数据中心双向同步 祝辰Redis 多数据中心双向同步 祝辰 • 携程框架架构部门 • 资深研发工程师 • 专注于 Redis 高可用系统的 研发工作 • 对分布式存储系统有所涉猎 讲师介绍 祝辰 1 开篇 2 3 4 5 目 录 CONTENTS 携程的Redis架构 分布式理论 双向/多向同步的问题 CRDT 19 世纪的通讯 “At 12:30 am on April 4th idempotent Operation-based Replication State-based Replication • 通常是基于全量状态进行同步, 这样的结果是造成的网络流量 太大, 且同步的效率低下. 在同步机制已经建立的系统中, 我们 更倾向于使用 Op-based replication, 以达到节省流量和快速 同步的目的 Op-based Replication • 基于 unbounded0 码力 | 45 页 | 1.74 MB | 1 年前3
共 91 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10














