设计 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

TiDB 可观测性的设计与实现陈霜

TiDB 可观测性的设计与实现 – 陈霜 About me ● 陈霜, TiDB Insight R&G Engineer, PingCAP ● chenshuang@pingcap.com ● Github: crazycs520 Agenda ● TopSQL: Bind SQL With CPU Resources ● System Table

0 码力 | 39 页 | 3.97 MB | 1 年前
3
云时代下多数据计算引擎的设计与实现

reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现郭罡 CTO 拓数派（OpenPie） @2024 OpenPie. All rights reserved. OpenPie Confidential 关于拓数派 • 成立于2021年，以“Data Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential janm 格式行列混存（PAX）为极致的数据计算而设计和优化解析性能极致 (vs Parquet, etc) @2024 OpenPie. All rights reserved. OpenPie Confidential JANM：大数据计算系产品子功能太多分支？ • 抽象的⽂件协议接⼝ • 抽象的⽂件格式接⼝ • 抽象的计算功能接⼝（e.g. data skipping） • 抽象的元数据存储接⼝ • …… 抽象和灵活的考虑贯穿所有的设计. Apache Arrow作为不少组件内存中间桥梁. @2024 OpenPie. All rights reserved. OpenPie Confidential Postgres 执行计算引擎

0 码力 | 15 页 | 3.09 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

ETL方案设计与实现邱培峰拓数派技术专家云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 03

0 码力 | 29 页 | 5.24 MB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

…. pyH� un lytlcD r.p ur re 。 Rock.s 2014 2018 2022 云原⽣数据库 PieCloudDB eMPP架构设计与实现郭罡拓数派CTO 关于拓数派（OpenPie） • 成⽴于2021年，以“Data Computing for New Discoveries”「数据计算，只为新发现」为使命。临时状态存储（如lock等) 也放在FoundationDB • 依赖于FoundationDB的KV特性、可串⾏化事务、watcher机制 • 多个集群（虚拟数仓）可以共享⼀份元数据 • FoundationDB⾼可⽤设计、备份恢复保证元数据的可靠性和可⽤性元数据管理缓存 • ⺫的： • 减轻FoundationDB集群负担 • 加速查询优化（⺴络延迟远⾼于内存延迟） • 以Postgres原⽣的元数据缓存概念为基础，优化重构实现适⽤于以Postgres原⽣的元数据缓存概念为基础，优化重构实现适⽤于多集群架构⽤户数据存储引擎 • PAX（⾏列混存）配以⾼效压缩 • Block⽂件为⼀个存储(MVCC)单位 • 辅助信息存储⽤于计算优化 • 设计考虑： • ⾼效和精准的统计信息收集 • 存储和计算成本 • 各种计算优化 • SIMD, Cache Line • Data Skipping (本地查询和远程读取） • 预聚集 • .....

0 码力 | 31 页 | 1.43 MB | 1 年前
3
大模型时代下向量数据库的设计与应用

大模型时代下向量数据库的设计与应用个人简介目前在拓数派负责向量数据库PieCloudVector产品，聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验，在加入拓数派前曾就职于开源大数据平台Greenplum团队，担任外部数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心国内虚拟数仓和eMPP技术提出者，不断在数据计算引擎方向进行创新，全面拥抱AI技术趋势。目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍大模型检索增强生成(RAG) 使用大模型可以构造问答，聊天等应用，但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期，不包含最新信息，无法准确回答相关信息

0 码力 | 28 页 | 1.69 MB | 1 年前
3
Mybatis 框架课程第二天

传智播客——专注于 Java、.Net 和 Php、网页平面设计工程师的培训北京市昌平区建材城西路金燕龙办公楼一层电话：400-618-9090 Mybatis 框架课程第二天第1章回顾 1.1 自定义流程再分析传智播客——专注于 Java、.Net 和 Php、网页平面设计工程师的培训北京市昌平区建材城西路金燕龙办公楼一层电话：400-618-9090 细节： resultType 属性：用于指定结果集的类型。 parameterType 属性：传智播客——专注于 Java、.Net 和 Php、网页平面设计工程师的培训北京市昌平区建材城西路金燕龙办公楼一层电话：400-618-9090 用于指定传入参数的类型。 sql 语句中使用#{}字符：它代表占位符，相当于原来的代理对象 userDao = session.getMapper(IUserDao.class); } 传智播客——专注于 Java、.Net 和 Php、网页平面设计工程师的培训北京市昌平区建材城西路金燕龙办公楼一层电话：400-618-9090 @After//在测试方法执行完成之后执行 public void destroy() throws

0 码力 | 27 页 | 1.21 MB | 1 年前
3
HBase基本介绍

没有其他⼆二级索引 • 所以只有按rowkey查询⽐比较快, 其他全表扫 • 除了了列列族要求是可打印字符, 别的都可以是任意⼆二进制数据数据模型 RowKey • ColumnFamily的设计是要求把相关的列列放在同族 • 所有的各项配置, 都是指定到列列族上, 不不是列列, 同列列族数据, 物理理上存在同⽂文件 • ColumnFamily在建表时确定, 具体有哪些列列是数据随意添加的寻迹数据场景千亿级PV, 万亿个KV对寻迹数据对⽐比这⾥里里先对⽐比前两⾏行行. ⼀一个10列列⼀一个1列列. • ⼀一开始想吐槽这种模型设计, 后来看google论⽂文说⼈人家参考了了很多模型最终才决定这样设计的…. • 简单⾼高效, 可以作为其他应⽤用的基础 • OpenTSDB: 时序数据库, 主要是监控数据这类的 • JanusGraph: 图数据库 Schema Design 如何设计表结构 • 合理理设计RowKey 和 Column • 根据查询需求决定schema • 单⼀一⼤大宽表, 避免跨表查询 • 必要的时候进⾏行行冗余, 反范式 • 相关的数据要存放在⼀一起 • 不不要有热点 • 将列列限定符视为数据通常是⼀一个合理理选择 Schema设计在关于数据库⾥里里我们有各种范式来帮助设计, 在hbase⾥里里也要合理理设计⼀一下

0 码力 | 33 页 | 4.86 MB | 1 年前
3
πDataCS赋能工业软件创新与实践

灵活进⾏扩缩容，随着负载的变化实现⾼效的伸缩，轻松应对 PB级海量数据。全新的存储「简墨」和缓存架构设计在计算层，各个计算节点针对元数据和用户数据都设计了多层缓存结构，避免⽹络延迟和数据移动，提⾼计算效率，保证用户的实时性需求。PieCloudDB针对底层对象存储设计了⾼效的⽂件格式，可在节省⽹络请求的同时提⾼计算效率。全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息，并⽣成更⾼性保证了虚拟数仓永远在线可用，S3存储和跨云灾备能⼒保证了永不丢数。坚如磐⽯ | ⾼安全⾼在线⾼可靠 MPP πPG eMPP 内核存算分离重写云原⽣创新设计和专利⾏业顶级数据库的抽象思考和设计原则复用 @2024 OpenPie. All rights reserved. OpenPie Confidential 云原⽣分布式优化器--达奇多表连接的最优顺序搜索利用每个数据块内预计算的结果，提前过滤掉不符合条件的数据块，从⽽减少对数据的扫描和后续的计算。 @2024 OpenPie. All rights reserved. OpenPie Confidential 分布式设计，保证可靠性计算层： Ø eMPP：根据计算任务智能调度合适的资源，将⼀个单⼀计算任务在⼤量独立的计算机上并⾏执⾏。 Ø 多租户，资源隔离。 Ø 弹性伸缩，支持多集群协同。存储层：

0 码力 | 36 页 | 4.25 MB | 1 年前
3
Greenplum 精粹文集

Startup 公司，创始人家门口有一棵青梅 ——greenplum，因此而得名）召集了十几位业界大咖（据说来自 google、yahoo、ibm 和 TD），说干就干，花了一年多的时间完成最初的版本设计和开发，用软件实现了在开放 X86 平台上的分布式并行计算，不依赖于任何专有硬件，达到的性能却远远超过传统高昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Postgresql 是单实例数据库，怎么能在多个 X86 服务器上运行多个实例且实现并行计算呢？为了这，Interconnnect 大神器出现了。在那一年多的时间里，大咖们很大一部分精力都在不断的设计、优化、开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多个 Postgresql 实例的高效协同和并行计算，Interconnect 承载了并行查询计划生产和 Dispatch 这个问题大致引申出两个问题： 1) 为什么不从数据库底层进行重新设计研发？所谓术业有专攻，就像制造跑车的不会亲自生产车轮一样，我们只要专注在分布式技术中最核心的并行处理技术上面，协调我们下面的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像车轮一样，经过几十年磨砺，数据库引擎技术已经非常成熟，大可不必去重新设计开发，而且把数据库底层交给其它专业化组织来开发（对应到 Postgresql

0 码力 | 64 页 | 2.73 MB | 1 年前
3
谈谈MYSQL那点事

读写性能都非常优秀 • 能够承载大数据量的存储和访问能够承载大数据量的存储和访问 • 拥有自己独立的缓冲池，能够缓存数据和索引拥有自己独立的缓冲池，能够缓存数据和索引 MySQL 架构设计—应用架构强一致性对读一致性的权衡，如果是对读写实时性要求非常高的话，就将读写都放在 M1 上面， M2 只是作为 standby 。比如，订单处理流程，那么对读需要强一致性，实时写实力和途径，实际中尽可能两者兼顾。 MySQL 架构设计—高可用架构  系统优化：硬件、架构系统优化：硬件、架构  服务优化服务优化  应用优化应用优化 MySQL MySQL 优化方式优化方式影响性能的因素影响性能的因素 应用程序应用程序 查询查询 事务管理事务管理 数据库设计数据库设计 数据分布数据分布 网络网络 操作系统操作系统使用好的硬件，更快的硬盘、大内存、多核使用好的硬件，更快的硬盘、大内存、多核 CPU CPU ，专业的，专业的存储服务器（存储服务器（ NAS NAS 、、 SAN SAN ））  设计合理架构，如果设计合理架构，如果 MySQL MySQL 访问频繁，考虑访问频繁，考虑 Master/Slave Master/Slave 读写分离；数据库分表、数据库切片（分读写分离；数据库分表、数据库切片（分

0 码力 | 38 页 | 2.04 MB | 1 年前
3

共 81 条前往

页

分类

语言

格式

TiDB 可观测性的设计与实现陈霜

云时代下多数据计算引擎的设计与实现

云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

云原生数据库 PieCloudDB eMPP架构设计与实现

大模型时代下向量数据库的设计与应用

Mybatis 框架课程第二天

HBase基本介绍

πDataCS赋能工业软件创新与实践

Greenplum 精粹文集

谈谈MYSQL那点事