新一代云原生分布式存储地址空间的每段数据会分布在不同机器的磁盘上,如 何找到这些数据? 可靠性 & 可用性 —— 多副本/EC 服务不可用时 间 数据一致性 —— 一致性协议 如何保证数据不丢?如何保证各种硬件故障的时候读 写都正常? 可扩展性 —— 和数据分布的方式相关 所用容量都用完后,可以新增机器扩展容量分布式存储的要素 — 数据分布 无中心节点:哈希算法 INPUT (Offset, Len) io抖动(一致性协议): 异常场景(比如阵列卡一致性巡检,坏盘,慢盘,网络异常),服务升级 • 性能差(一致性协议):在通用硬件下,无法支撑数据库、kafka等中间件对存储性能和稳定性要求 • 容量不均衡(数据放置):集群各节点容量不均衡需要人为干预 • 上述问题和架构涉及、核心功能的选型有关,在已有开源版本上改进代价很大分布式存储介绍 01 存储的发展 | 分布式存储的分类 | 分布式存储的要素 020 码力 | 29 页 | 2.46 MB | 6 月前3
Curve 分布式存储设计完善混合云、公有云上部署架构 3. 完善高性能3副本存储引擎,支持混合盘 4. 文件存储支持数据存储到HDFS、rados等引擎 2. 性能 1. 完善RDMA/SPDK方案,发布稳定版本 2. 更高性能硬件选型、适配及性能调优 3. 大文件读写性能优化,RAFT优化,降低写放大 3. 功能 1. 文件存储支持回收站/生命周期管理/配额/用户权限等 2. 支持NFS、CIFS/SMB、HDFS等协议0 码力 | 20 页 | 4.13 MB | 6 月前3
Curve元数据节点高可用© XXX Page 1 of 30 Curve元数据节点高可用© XXX Page 2 of 30 1. 需求 2. 技术选型 3. etcd clientv3的concurrency介绍 3.1 etcd clientV3的concurrency模块构成 3.2 Campaign的流程 3.2.1 代码流程说明 3.2.2 举例说明Campagin流程 3.3 Observe的流程 但同时只有一个mds节点提供服务,称该提供服务的mds节点为主,等待节点为备;主节点的服务挂掉之后,备节点能启动服务,尽量减小服务中断的时间。 需要解决的问题就是:如何确定主备节点。 2. 技术选型 提供配置共享和服务发现的系统比较多,其中最为大家熟知的就是zookeeper和etcd, 考虑当前系统中mds有两个外部依赖模块,一是mysql, 用于存储集群拓扑的相关信息;二是etcd,用于0 码力 | 30 页 | 2.42 MB | 6 月前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502反哺开源产品,形成正循环政企、创业者必读 DeepSeek出现之前的十大预判 之十 中美差距快速缩小 美国预训练堆算力的路线不可持续,有待发现新范式“换道超车” 软件和算法差距并不大,主要差距在工程、硬件等方面 23政企、创业者必读 DeepSeek的出现验证了我们的预判 而DeepSeek的创新更具颠覆性 24政企、创业者必读 DeepSeek是完美的颠覆式创新 技术创新——让过去做不到的事情可以做到 技术开放,对人工智能行业形成蓬勃发展,寒武纪大爆炸,推动AGI 行业发展 DeepSeek颠覆式创新——开源 34政企、创业者必读 成本的急剧降低 DeepSeek可适配国产硬件,促进国产硬件发展 DeepSeek的优化降低对推理硬件的要求,减少推理成本 训练成本降低,堆显卡模式受质疑,探索新思路,算法优化空间大 无需训练自己的基座模型,直接部署在DeepSeek上,不用重复发明轮子 公 自有大模型,实现超能力, 成长为超级个体 DeepSeek六大应用方向之一 人人智能:人人都要用AI 39政企、创业者必读 真正的机会是利用AI把所有的硬件重做一遍 DeepSeek六大应用方向之二 万物智能:所有智能硬件都用AI重做 40政企、创业者必读 DeepSeek六大应用方向之三 数转智改:助力传统产业打造新质生产力 用大模型帮助传统产业、制造业实现“数转智改”,利用AI降本增效0 码力 | 76 页 | 5.02 MB | 5 月前3
Curve质量监控与运维 - 网易数帆系统测试是对整个系统的测试,将硬件、软件、操作人员看作一个整体,检验它是否有不符 合系统说明书的地方。它是一个黑盒测试,可以发现系统分析和设计中的错误。 Curve的系统测试一般是由QA来完成,包含: 常规测试,主要是新增功能的手工测试; 性能测试,将性能数据与基准对照,确定性能没有出现预期外的下降或提升; 稳定性测试,在正常压力下运行足够长的时间; 异常测试,在正常流程中注入一种软硬件异常; 混沌测试,大压力多级故障(随机组合软硬件异常)。 在系统测试过程中,我们尽可能将所有用例自动化,其优点是: 大幅降低了测试回归成本,加快了测试进度; 可以对代码进行足够频繁的测试,有利于提高代码质量; 容易发现隐藏的问题,手工测试无法做到频繁触发 测试用例可以持续积累,成为代码质量的。 目前Curve的 异常测试以及混沌测试 均实现了自动化。 15/33测试用例的编写方法 Scatter-width(打散度)均衡 各ChunkServer上全部copyset,其副本分布的 ChunkServer总数量均衡。 30/33网络丢包10% 自动故障恢复 Curve可在多种软硬件故障场景(如单mds故障、单ChunkServer故障、硬盘故障、网络丢包等) 实现自动恢复,保障存储服务高可用性。 多对多,恢复时间短 精确的流量控制,对io影响很小 Kill一个节点所有ChunkServer进程0 码力 | 33 页 | 2.64 MB | 6 月前3
人工智能安全治理框架 1.0(c)加强人工智能算力平台和系统服务的安全建设、管理、运维能力, 确保基础设施和服务运行不中断。 (d)对于人工智能系统采用的芯片、软件、工具、算力和数据资源,应 高度关注供应链安全。跟踪软硬件产品的漏洞、缺陷信息并及时采取修补加固 措施,保证系统安全性。 4.2 针对人工智能应用安全风险 4.2.1 网络域风险应对 (a)建立安全防护机制,防止模型运行过程中被干扰、篡改而输出不可 交互等方面组织研究人工智能决策透明度、可信度、纠错机制等问题,不断提 高人工智能可解释性和可预测性,避免人工智能系统意外决策产生恶意行为。 5.7 人工智能安全风险威胁信息共享和应急处置机制。持续跟踪分析 人工智能技术、软硬件产品、服务等方面存在的安全漏洞、缺陷、风险威胁、 安全事件等动向,协调有关研发者、服务提供者建立风险威胁信息通报和共享 机制。构建人工智能安全事件应急处置机制,制定应急预案,开展应急演练, 及时快速有效处置人工智能安全威胁和事件。0 码力 | 20 页 | 3.79 MB | 1 月前3
TGT服务器的优化SCSI • 替代SAN • 可靠性、稳定性方面有自己的的特色,使用raft副本一致性和copyset概念可以自动 修复损坏的副本,并且可扩容。无论在可靠性、稳定性还是性价比方面都很有优势, 使用廉价硬件搭建。iSCSI软件 • Client端: iscsi initiator,系统自带 • Linux open-iscsi • Windows iSCSI 发起者 • 服务器端 • 必须是C0 码力 | 15 页 | 637.11 KB | 6 月前3
Rust 程序设计语言 简体中文版 1.85.0共享状态的方法。对于高级语言 来说,只实现可能解决方案的子集是一个合理的策略,因为高级语言所许诺的价值来源于牺牲 一些控制来换取抽象。然而对于底层语言则期望提供在任何给定的情况下有着最高的性能且对 硬件有更少的抽象。因此,Rust 提供了多种工具,以符合实际情况和需求的方式来为问题建 模。 如下是本章将要涉及到的内容: • 如何创建线程来同时运行多段代码。 • 消息传递(Message pas 知某个同事卡在等待你的一个任务完成,你可 能会集中所有精力在这个任务上来 “解锁” 你的同事。你和你的同事则不再能并行地工作了, 同时你也不能够并发地处理自己的任务。 同样的基础动态也作用于软件与硬件。在一个单核的机器上,CPU 一次只能执行一个操作,不 过它仍然可以并发工作。借助像线程、进程和异步(async)等工具,计算机可以暂停一个活 动,并在最终切换回第一个活动之前切换到其它活动。在一个有多个 核心的机器上,它 也可以并行工作。一个核心可以做一件工作的同时另一个核心可以做一些完全不相关的工作, 而且这些工作实际上是同时发生的。 当使用 Rust 中的 async 时,我们总是在处理并发。取决于硬件、操作系统和所使用的异步运 行时(async runtime)– 稍后会介绍更多的异步运行时!并发也可能在底层使用了并行。 现在让我们深入理解 Rust 的异步编程实际上是如何工作的!在接下来的章节中,我们将:0 码力 | 562 页 | 3.23 MB | 22 天前3
共 8 条
- 1













