Curve质量监控与运维 - 网易数帆C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 运维 ✓ 运维特性 (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程 版本管理 测试 测试方法论 CI与异常测试 6/33设计流程 C0 码力 | 33 页 | 2.64 MB | 6 月前3
阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践Kubernetes 集群运维实践 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •嵌入式、微服务框架 •2017 年加入阿里巴巴,负责阿 里集团数十万集群节点规模化运 维管理系统的研发工作 •2019 年参与集团全面上云项目 并经历了整体架构的云原生升级 演进,稳定支撑双11峰值流量分享内容 • 阿里全站上云 • 神龙 (what & why) • 规模化集群运维实践 • Overlay网络 集团机房 云上机房 基础设施 IDC 系统 基础运维 天基系统 CMDB 安全审计 单机监控 ASI 平台 kubelet/Pouch CI/CD k8s extended Service Mesh 安全容器 运维管控 在离线混部 额度管控 监控体系 多租隔离 上层业务 集 团 业 务运维挑战 • 规模大 • 集群规模大 (数十个集群),节点数量多 (数十万节点) (数十万节点) • 业务线多、应用数量多、应用类型复杂 (有状态、无状态、多语言) • 基础环境复杂 • 大规模 在线、离线 混部 (运维打通) • 装机模板、OS版本、内核版本多;内核补丁、参数不同;其他如网卡中断打散 • 稳定性要求高 • 性能、宕机、夯机、抖动系统架构 • 基础监控 • 秒级、分钟级监控 • 内核性能指标采集 • 监控大盘 • 在线率 • 宕机率 • 抖动率 • 基线系统0 码力 | 21 页 | 7.81 MB | 6 月前3
云原生开放智能网络代理 MOSN云原生开放智能网络代理 MOSN 金融级云原生架构助推器 肖涵(涵畅) 蚂蚁金服高级技术专家 SOFAMosn 项目负责人1/10 MOSN,云原生时代的安全网络代理 Service Mesh 控制面 Galley Pilot Pod SOFA 服务 MSON Kubernetes TLS,国密 服务鉴权 Mirror Ingress Controller Pod Msg 精细化路由 安全防护 多协议 可运维 可扩展 • 多版本发布 • 压测引流 • 服务分组 • 加密链路 • 国密算法 • 服务鉴权 • TCP、Http、SOFA • 透明劫持 • 平滑升级 • 可观测性 • 网络包过滤器 • 协议包过滤器 • 协议扩展 • 可观测性扩展 • 路由扩展 • 集群管理扩展 模块化 安全 智能 高性能3/10 MOSN 助力业界最大规模之一的0 码力 | 12 页 | 1.39 MB | 6 月前3
人工智能安全治理框架 1.0全国网络安全标准化技术委员会 2024年9月 人工智能 安全治理框架1. 人工智能安全治理原则 …………………………………… 1 2. 人工智能安全治理框架构成 ……………………………… 2 3. 人工智能安全风险分类 …………………………………… 3 3.1 人工智能内生安全风险 ……………………………… 3 3.2 人工智能应用安全风险 ……………………………… 5 4. 技术应对措施 ……………………………………………… 7 4.1 针对人工智能内生安全风险 ………………………… 7 4.2 针对人工智能应用安全风险 ………………………… 9 5. 综合治理措施 ……………………………………………… 10 6. 人工智能安全开发应用指引 ……………………………… 12 6.1 模型算法研发者安全开发指引 ……………………… 12 6.2 人工智能服务提供者安全指引 ……………………… 13 15 目 录- 1 - 人工智能安全治理框架 人工智能是人类发展新领域,给世界带来巨大机遇,也带来各类风险挑战。 落实《全球人工智能治理倡议》,遵循“以人为本、智能向善”的发展方向,为 推动政府、国际组织、企业、科研院所、民间机构和社会公众等各方,就人工 智能安全治理达成共识、协调一致,有效防范化解人工智能安全风险,制定本 框架。 1. 人工智能安全治理原则 秉持共同、综合、合0 码力 | 20 页 | 3.79 MB | 1 月前3
1.3 Go practices in TiDB 姚维Go Practices in TiDB 姚维 PingCAP wink@pingcap.com Agenda ● How to build a stable database ○ Schrodinger-test platform ○ Failpoint injection ○ Goroutine-leak detection ● Optimization ○ Chunk vs interface{}0 码力 | 32 页 | 1.76 MB | 6 月前3
27-云原生赋能 AIoT 和边缘计算、云形态以及成熟度模型之道-高磊动作,比如下雨关窗帘,是自动化范畴,上传云端的数 据都是属性数据,比如谁什么时候干了什么,后续云端 根据个人喜好数据为用户提供比如按照个人喜好调节温 度、或者提送广告内容等 自动化特征 智能家居 智能办公室 智能信号灯... 远端控制 云端分析系统 设备端 (现场)边缘计算BOX 业务场景复杂,对算力、通信要求很高,计算放置于 云端时效性差,另外无法现场就对业务进行处理,比 如计算路口交通事故预警,给予司机及时提示等,所 高级能力-自动化-AIoT以及赋能业务-边缘计算(Edge Cloud )-2 • 为了更好的为客户业 务场景赋能,比如路 口的交通事故识别和 预警等等需要低时延 高算力的场景,需要 实现云边一体纳管, 简化运维,降低成本, 客户专注于业务领域。 • 无论是AIoT还是边缘 计算,核心要素是计 算,计算平台的训练 平台位于云端,而推 理计算位于BOX端,并 且能够适应各类算法 和硬件的要求,形成 一个通用计算平台, 业务当中,低代码平台 可以带来的东西会更多。 将业务沉淀抽象化(比如 中台化),向上呈现。 • 低代码平台可以把不同 部门的系统、不同类型 的技术,如 RPA、BPM、 微流逻辑等串联在一起, 实现端到端的智能自动 化。是种生态型平台。 高级能力-混合云(资源角度) 控制力 服务、位置、规则可控 高安全 安全自主可控 高性能 硬件加速、配置优化 固定工作负载 私有云 混合云 SLB 工作负载可迁移0 码力 | 20 页 | 5.17 MB | 6 月前3
Service Mesh的实践分享用户与Istio的区别 我是作者名称没有对称的server端agent • 性能考虑 • Proxy已经增加了一跳,server再增加一跳会加剧 性能压力 • 部署考虑 • 服务端agent成为必选项会增加运维压力 • OSP server默认没有agent,web server只带一个 服务注册agent • 服务端的一些治理、trace、鉴权功能通过代码插 件的方式实现 • 治理效果考虑 • • Istio的设计很美好,但现实总是很残酷 • IPTable性能不总是足够好 • 任何组件都有不可用的时候。客户端无论如何都要有自切换的能力和可 用的备份 • 尽量减少外部组件依赖。业务/运维总会有各种特殊的需求,依赖外部组 件会给自定义需求带来障碍。 • 保持客户端选择proxy的自由度和灵活性,在我们的实践中好处大 于坏处胖客户端 vs. service mesh vs. cluster 响应(目前还没有生成HTTP sdk) 应用侵入性 侵入性大。复杂客户端会给 应用造成负担,包括资源占 用、依赖冲突等等 侵入性小。SDK只有简单的寻址和序列化/ 反序列化的功能 无侵入性。应用自行调用 运维难度 难度大。客户端的问题会对 应用直接产生影响,耦合太 重 难度小。Sidecar故障可以将流量临时切到 remote proxy解决 难度小。集群通过LVS接入,单 台机故障可以下线 升级难度0 码力 | 30 页 | 4.80 MB | 6 月前3
Nacos架构&原理
就是本书 介绍的主角 Nacos,经过三年时间的发展,Nacos 已经被大量开发者和企业客户用于生产环境,本 书详尽介绍了 Nacos 的架构设计、功能使用和最佳实践,推荐分布式应用的开发人员、运维人员和 对该领域感兴趣的技术爱好者阅读。 推荐序 < 8 Facebook 工程师 & CNCF 前 TOC 成员 - 李响 服务注册、发现与配置管理是构成大型分布式系统的基石。Nacos 是集成了这三种能力的现代化、 的崛起,微服务多个模块逐步被划分,包括注册中心、配置中心,如果从 产品定位上,期望定位简单清晰,利于传播,我们需要分别开源我们内部产品,这样又会分散我们 品牌和运营资源。另外大部分客户没有阿里这么大的体量,模块拆分过细,部署和运维成本都会成 倍上涨,而且阿里巴巴也是从最早⼀个产品逐步演化成 3 个产品的,因此我们最终决定将内部三个 产品合并统⼀开源。定位为:⼀个更易于构建云原生应用的动态服务发现、配置管理和服务管理平 台。由于我们在阿里内部发展了 出来独立管理,以独立的配 置文件的形式存在。目的是让静态的系统工件或者交付物(如 WAR,JAR 包等)更好地和实际的物 理运行环境进行适配。配置管理⼀般包含在系统部署的过程中,由系统管理员或者运维人员完成这 个步骤。配置变更是调整系统运行时的行为的有效手段之⼀。 配置管理 (Configuration Management) 在 Nacos 中,系统中所有配置的存储、编辑、删除、灰度管理、历史版本管理、变更审计等所有0 码力 | 326 页 | 12.83 MB | 9 月前3
2024 中国开源开发者报告开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI 应用的核心架构 68 | 谈开源大模型的技术主权问题 72 | 2024:大模型背景下知识图谱的理性回归 77 | 人工智能与处理器芯片架构 89 | 大模型生成代码的安全与质量 93 | 2024 年 AI 大模型如何影响基础软件行业中 的「开发工具与环境」 98 | 推理中心化:构建未来 AI 基础设施的关键 保持较高的贡献水平,展现出 其对生态建设的持续支持;而 部分组织的活跃度则随时间推 移逐渐下降,可能受到内部资 源调整或技术方向变化的影响。 19 / 111 本章汇集了来自不同领域专家和开发者对开源大模型和人工 智能技术的深刻见解,不仅涵盖了技术层面的深入探讨,也 触及了社会、伦理和政策层面的广泛议题。 从对中国开源模型崛起的分析,到对开源模型持久性的思考, 再到对超级应用探寻之路的探索,每篇文章都为我们提供了 年中国开源模型:崛起与变革 文/Tiezhen、Adina、Lu Cheng 2024 年,中国在开源人工智能模型领域的崛起和变革成为全球瞩目的焦点:从学术到产业, 从技术到生态,中国通过自主研发和协同创新,逐步完成了从“追随者”到“引领者”的转变。 这种转变不仅是技术实力的体现,更是中国人工智能生态系统快速完善的真实写照。以下,我们 将从崛起与变革两个维度,探讨中国开源模型在这一年取得的重大成就和未来展望。0 码力 | 111 页 | 11.44 MB | 8 月前3
蚂蚁金服ServiceMesh数据平面 SOFAMosn深层揭秘Ø拥抱微服务,云原生 • SOFA 5规划落地 • 兼容K8S的智能调度体系 Ø运维体系的有力支撑 • LDC • 弹性伸缩 • 蓝绿/容灾/.. Ø金融级网络安全 • 金融级鉴权体系 • 云原生zero trust网络安全趋势 Ø异构语言体系融合 • SOFA/NodeJS/C++/Python/.. • 业务低成本融入服务,运维体系为什么要自研Golang版本ServiceMesh 2 a等多种技术栈 Ø基于蚂蚁SOFA体系的Mesh化思考 ü 无法保证上下游应用同时升级到Mesh模式 ü 基于RPC内容的流量调度 ü 升级窗口有限,方案必须简单高效 Ø运维体系,容器化建设等方面适配 ü 蚂蚁运维架构建立在流量调度的基础上 ü 容器管理平台更替快速进行中 ØGolang 性能,成本评估符合蚂蚁实际需求2 构架SOFAMesh 1SOFAMosn 2SOFAMosn内数据流 1. SSL handshake 2. Offload decrypt Offload encrypt/decrypt5 RoadMap6 Q&A欢迎加入 • 系统部 • 容器,K8S,智能调度,网络,Linux内核.. • 中间件 • 微服务,容器框架,数据,通信,搜索,OLAP..0 码力 | 44 页 | 4.51 MB | 6 月前3
共 123 条
- 1
- 2
- 3
- 4
- 5
- 6
- 13













