TiDB 开源分布式关系型数据库由PingCAP 创立的分布式关系型数据库 TiDB,为企业关键业务打造,具备 分布式强一致性事务、在 线弹性水平扩展、故障自恢复的高可用、跨数据中心多活」 等企业级核心特性,帮助企业最大化发挥数 据价值,充分释放企业增长空间。 目前,PingCAP 已经向包括中国、美国、欧洲、日本、东南亚等国家和地区,超过 1500 家企业提供服 务,涉及金融、运营商、制造、零售、互联网、政府等多个行业 1.2 中国数据库技术年度最佳创新产品 PingCAP 公司荣誉 。 2017 中国最具投资价值TOP 50 。 2017 中国年度创新成长企业 100 强 。 2017 年度中国企业服务产业最佳投资案例 TDP10 。 2018 中国大数据准独角兽榜 。 2018 企业服务产业独角兽榜-数据服务 。 2019 中国最具投资价值企业风云榜 50 强 。 2019 中国数据库技术年度评选年度创新企业 。 2019 PingCAP.COM 28 第五章 北京银行 打造面向未来的商业银行业分布式核心系统 北京银行是中国最早成立的城市商业银行之一,公司价值位列中国区域性发展银行的首位,一级资本排名 全球干家大银行第 62 位,连续七年跻身全球银行业百强。 建设背景 随着互联网金融时代的到来,基于移动互联的高频访问场景成为常态,面对海量数据、高并发的挑战,北0 码力 | 58 页 | 9.51 MB | 1 年前3
Greenplum机器学习⼯具集和案例thegiac.com MADlib vs. Spark: 不不同的产品,侧重点不不同 MADlib Spark 算法库 易用性 需要编程 查询优化 成熟度稍差 内存和流处理 通过 Gemfire SQL 语法支持 需要提升 磁盘数据 不是核心焦点 并发性能 不是核心焦点 大数据关联 不是核心焦点 2017.thegiac.com com 数据整理理 数据准备 信息价值和证据权 重 成对相关性 删除⾼高度相关变量量 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 439 特征 ● 4,517 ⾏行行代码 ● 100 分钟 ● 934 特征 ● 1,438 ⾏行行代码 ● 30 分钟 多 495 个特征,快 3.33x 信息价值 ● ~450 个变量量,~30分 钟计算结果并写⼊入 excel ● 在 GPDB 中花 58 秒计 算 ~200 个变量量的IV 13.7x/变量量 建模 ● < 500 码力 | 58 页 | 1.97 MB | 1 年前3
πDataCS赋能工业软件创新与实践国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景:成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构 价值观:以⼈为本、开放创新、拥抱变化、诚信正直 拓数派中国总部与全球分支机构 海 外 研 发 中 ⼼ 北京研发中⼼ 杭 州 总 部 上海全球品牌战略与⽣态发展中⼼ ⼴州研发中⼼ @2024 升级了数据中台的安全审计应用,采用PieCloudDB替换了ES,支持半结构化数据的查询(json/xml等数据格式), 应用开发不用再基于SPL查询语法,改用通用型的SQL语法即可,⼤⼤缩短了应用开发和迭代周期; Ø 具备流批⼀体化能⼒,兼容Spark和Flink等应用程序,替换了部分Spark应用(SparkSQL); Ø 与集团内部的云平台进⾏了统⼀集成,通过API接⼝实现了系统对接,统⼀进⾏租户和资源的管理,支持资源管控和 客户画像 客户价值评估 营 销 数 据 分 析 数据 应用 @2024 OpenPie. All rights reserved. OpenPie Confidential 客 户 案 例 : ⼤ 型 先 进 制 造 企 业 , 通 过 π D a t a C S 全 面 构 建 国 产 化 数 据 底 座 数据 资源 Kafka 数据 采集 实时同步 批量采集 流 式 数 据 MEGDAO完⼯调试移0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB Database 产品白皮书 zetabytes 击需视各2nk 2n 2n6 201 2018 20192070 20717022 2973 2024 2025 1DC:全球数据圈预测 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算 (Data Computing) 的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 统 MPP 数据库解决方案迎来 了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一, 报表结! 传统数据仓库无法及时扩 导致大数据系统天 价值所带来的商业机会 用户在扩 必须同时扩 企业遇到负 时刻或需要紧急得到某个 法弹性、快速地分析业务数据,错失了充分挖掘数据 Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) (elastic Massive Parallel Processing) 分布式技术,旨在为企业提供包含实时处理、 移级扩缩容、弹性计算、集成数据分析等强大功能的云上数据存储和计算引擎,助力企业实现数据价值最大化。 pieCloudDB 为企业构建坚如般石的虚拟数仓,以云资源最优化配置实现无限数据计算可能,基于新一代数仓虚拟 化,提供云数仓智能化解决方案,助力企业建立以数据资产为核心的竞争整垒。 Openpie0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书增长为世界第一 。数据被称为数字经济时代的“石 油”,如同石油驱动了工业化时代的进步,大数据将推动智能化与数字化时代的发展。 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算(Data Computing)的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一定的挑战。当企业遇到负载高峰时刻或需要紧急得到某个 报表结果时,传统数据仓库无法及时扩资源,导致大数据系统无法弹性、快速地分析业务数据,错失了充分挖掘数据 价值所带来的商业机会。 传 统 数 据 仓 库 架 构 成 本 高 昂 传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率, DB 在eMPP分布式专利技术、服务器无感知(Serverless)及TDE(透明数据加密)等多项核心技术加持下,为企业构建 高安全,高可靠,高在线「坚如磐石」的云原生虚拟数仓,助力企业实现数据价值最大化,更好地赋能业务发展并走 向绿色,成为新一代AI数据计算基础设施的一个典范。 全面的 SQL 兼容度 多维度弹性扩缩容 高可用能力 高性能的数仓引擎 PieCloudDB 产品特性0 码力 | 17 页 | 2.02 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现HotDB 第 DATABA _届中国数据库技术大会 E TECHNOLOGY 拒产 ,rll&ttom 肖毛 线上直播 l CONFERE CE CHI \ 价值8 ChinaUrnx ,千UB A 2022 2022/12/14-16 2OlO OynamoDB CirroD 叩i Hubble B . SinoOB 为什么选择Postgres? • 关于Postgres • 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展,插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件) • 采⽤度和流⾏度持续上升 • 优秀的⽣态 • 我们的选择 • 很多功能不⽤也没必要重新造轮⼦ • 和⼀流的产品和⼈才⼀起成⻓ • 团队深度理解Postgres内核代码,在社区参与诸多贡献 各种Postgres/Greenplum组件或者功能天然⽀持,如In- database AI组件Madlib, json, text等 • 实时ETL/ELT性能对⽐PieCloudDB 1.0有巨⼤提升 • 流处理:原⽣⽀持kafka数据导⼊和查询, 在PieCloudDB侧导⼊ 实现exactly once语义 智能化云原⽣平台 (数据服务平台) 面向用户,做到开箱即用:离数据分析更近, 离繁琐操作更远;0 码力 | 31 页 | 1.43 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案“可能会成为数据仓库和数据 库管理系统市场的突破力量” Gartner的Donald Feinberg 17 通过Greenplum超级数据处 理引擎增强竞争优势 Greenplum数据引擎:内容和方式 价值主张 – 性价比: 性能可达到传统方案(Oracle、Teradata)的 10到100倍, 而成本只是其一小部分 – 可伸缩性:从较低的万亿字节扩展到千万亿字节 – 开放式系统:在通用系统和开放源软件的基础上创建 开放式系统:在通用系统和开放源软件的基础上创建 前提条件 – 硬件:基于开放式标准硬件 – 软件:Postgres和Greenplum – 体系架构:海量并行处理体系,针对商务智能/数据仓库 进行了优化,解决了所有数据流瓶颈问题 Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 “完全不共享”体系 Greenplum体系:并行数据流 21 • 通用并行数据流引擎可以通过本地方 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集来交换数据,效率很低,MapReduce 要求每个步骤间的数据都要序列 化到磁盘,这意味着 MapReduce 作业的 I/O 成本很高,导致交互分 析和迭代算法开销很大,MPP 数据库采用 Pipline 方式在内存数据流 中处理数据,效率比文件方式高很多。 总结以上几点,MPP 数据库在计算并行度、计算算法上比 Hadoop 更加 SMART,效率更高;在客户现场的测试对比中,Mapreduce 对 于单表的计算尚 以其优越的性能为越来越多的客 户所理解与接受。作为中国大数据市场的探路先锋,Pivotal 将以一个 我们亲力打造的大数据项目为例,与大家一起分享 Greenplum 在项目 实施过程中为客户创造的那些真实的价值,如何与客户一起开拓大数 据之路。 在国内某大型金融机构的大数据处理平台,使用 Greenplum 数据库产 品支撑其 ODS 及各类集市应用。项目从 2013 年 6 月份开始到 2015 年底,生产环境已经由最初的一套集群发展到 践和真知灼见转化成能够为更多客户服务的宝贵价值! Big Date2.indd 23 16-11-22 下午3:38 24 三、Greenplum 硬件选型篇 前 面 我 们 通 过 某 金 融 行 业 客 户 Greenplum 的 使 用 案 例 介 绍 了 Greenplum 产品在高吞吐、开放性、 易扩展等方面的卓越表现及其带 给客户的高价值。下面我们将从最佳实践方面介绍下 Greenplum0 码力 | 64 页 | 2.73 MB | 1 年前3
6. ClickHouse在众安的实践01 数据分析的最直观表现形式:报表 报表≠数据驱动 每天被访问超过10次的报表寥寥无几 传统报表访问往往是静态的、高聚合、低频、表单式的 集智平台可视化交互分析 数据加工的链路与数据价值发现 竞争优势 分析成熟度 洞察与应对 预测与行动 源数据 数据清洗 标准报表 OLAP系统 商务智能(BI) 机器学习建模 人工智能优化 发生了什么? 为什么发生? 什么会发生? 平台 OCR工具 链 X-Farm 异构数据治理、协同平台 元数据管理/数据集市 数据权限管理 | 大数据、流数据建模 | 数据/模型生命周期管理 资源调度 业务系统 开 发 工 具 基 础 设 施 模型 反馈 智能应用 开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your own model0 码力 | 28 页 | 4.00 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践据进行业务变化的监控与分析,通常情况下会采用实时流计算来实现。 外卖实时业务监控有如下特点: 避免分钟级的生产波动影响,业务上10、15分钟准实时数据可以满足分析需要。 实时数据需要与离线数据进行日环比与周同比的比对。 订单业务需要事件时间,体验业务需要生产时间,业务对齐逻辑复杂。 不同业务线需求差异大,指标需要良好扩展性。 由于业务上的复杂性,实时流计算中,需要考虑诸多业务口径的对齐,业务ER模型在合流处理中 据库RapidsDB v4.0支持TB级毫 秒响应(处理千亿数据可实现毫秒级响应)。可以预见,数据库技术的进步将大大改善数仓的分 层管理与应用支撑效率,业务将变得“定义即可见”,也将极大地提升数据的价值。 参考资料 Doris文档和源码 Apache Kylin VS Apache Doris 作者简介 朱良,美团外卖数据仓库工程师。 凯森,美团大数据工程师,Apache Kylin Committer。0 码力 | 8 页 | 429.42 KB | 1 年前3
共 65 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













