大规模机器学习 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

大规模微服务架构下的Service Mesh探索之路

大规模微服务架构下的 Service Mesh探索之路敖小剑6月初在深圳举行的GIAC全球互联网架构大会上，蚂蚁金服第一次对外透露了开发中的Service Mesh产品——Sofa Mesh。今天我们将展开更多细节，详细介绍蚂蚁金服Sofa Mesh的技术选型，架构设计以及开源策略。前言技术选型 Technical 1ü 性能要求 • 以蚂蚁金服的体量，性能不够好则难于接受 Registry Open Service Registry API Data Sync Dubbo Eureka Consul 1. 增加Sofa Registry的adapter，提供超大规模服务注册和发现的解决方案 3. 增加服务注册的API 2. 增加数据同步功能，配合edge sidecar实现跨域和异构的数据交换Edge Sidecar: 东西向服务间通讯的特殊桥梁服务注册中心

0 码力 | 37 页 | 7.99 MB | 6 月前
3
蚂蚁金服双十一 Service Mesh 超大规模落地揭秘

蚂蚁金服双十一 Service Mesh 超大规模落地揭秘黄挺(鲁直) 蚂蚁金服微服务以及云原生负责人雷志远(碧远) 蚂蚁金服中间件 RPC 负责人2 个⼈人简介雷志远（碧远）蚂蚁金服 RPC 负责人主要 Focus 领域： * 服务框架：SOFARPC（已开源） * Service Mesh：MOSN（已开源）黄挺（鲁直）蚂蚁金服云原生负责人主要 Service Mesh 为什么要 Service Mesh为什么要 Service Mesh-现状 5.客户端中间件版本的统一 9% 3.流量调度的诉求 18% 4.框架不断升级 14% 2.机器资源逐年增加 27% 1.业务和框架耦合 32%8 因为我们要解决在 SOA 下面，没有解决但亟待解决的：基础架构和业务研发的耦合，以及未来无限的对业务透明的稳定性与高可用相关诉求。为什么要 Client Pod 运行态 Pod 保活态 100% 100% 100% 1% 99%24 双十一成果覆盖双十一核心链路数十万容器双十一大促 0新增机器 QPS 数千万处理 RT < 0.2ms MOSN: https://github.com/sofastack/sofa-mosn25 对 Service Mesh 未来的思考我们对

0 码力 | 26 页 | 2.71 MB | 6 月前
3
阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践

周涛 (广侯) 阿里巴巴云原生应用平台技术专家阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践关注“阿里巴巴云原生”公众号回复 1124 获取 PPT自我介绍 •嵌入式、微服务框架 •2017 年加入阿里巴巴，负责阿里集团数十万集群节点规模化运维管理系统的研发工作 •2019 年参与集团全面上云项目并经历了整体架构的云原生升级演进，稳定支撑双11峰值流量分享内容的探索和创新成为可能 • ASI (k8s) + 容器 (runc / runv / kata / ..) + 神龙 = 阿里云原生化的最佳组合 • 最大的电商平台之一，并池最佳化资源利用率 • 大规模混部、优先级差异化提升资源使用效率 • Alibaba Serverless Infrastructure (ASI) 的基石上云效率提升物理机 (云下) 神龙裸金属 (云上) 交付周期周分钟级上层业务集团业务运维挑战 • 规模大 • 集群规模大 (数十个集群)，节点数量多 (数十万节点) • 业务线多、应用数量多、应用类型复杂 (有状态、无状态、多语言) • 基础环境复杂 • 大规模在线、离线混部 (运维打通) • 装机模板、OS版本、内核版本多；内核补丁、参数不同；其他如网卡中断打散 • 稳定性要求高 • 性能、宕机、夯机、抖动系统架构 • 基础监控 • 秒级、分钟级监控

0 码力 | 21 页 | 7.81 MB | 6 月前
3
逐灵&木苏-阿里巴巴 K8S 超大规模实践经验

曾凡松、汪萌海阿里云云原生应用平台阿里巴巴 k8s 超大规模实践关注“阿里巴巴云原生”公众号回复 1124 获取 PPT自我介绍 •曾凡松（逐灵），当前主要负责 k8s 在阿里巴巴场景中的规模化落地，将 k8s 应用于阿里最核心的业务，帮助客户以云原生的方式管理应用并获得效率、稳定性及成本的改善。 •汪萌海（木苏），经历了阿里巴巴集团集群调度从自研 sigma 系统迁移到系统迁移到 k8s 体系的过程，目前主要负责解决阿里巴巴集团在大规模场景下使用 k8s 碰到的稳定性、容器编排质量和性能问题。❖ 阿里巴巴容器的发展历程 ❖ 基于 k8s 云原生改造实践 ❖ k8s 规模及性能优化实践 ❖ 云原生应用管理演进路线主要内容阿里巴巴容器的发展历程 2013 初步探索使用容器的方式替换传统使用 VM 部署应用的，基于 lxc 自研了 t4 容器并构建了

0 码力 | 33 页 | 8.67 MB | 6 月前
3
2024 中国开源开发者报告

TypeScript连续两年成为了 Gitee年度增长最快编程语言（2023年增长率为49.04%），同样持续强势的还有Rust以及 C语言家族。此外，Dart及Arduino首次上榜，符合2024年跨平台开发及机器人开发的潮流。 12 / 111 本年度最常用开源许可证 MIT 33.91% Apache-2.0 27.28% MulanPSL-2.0 11.70% GPL-3.0 8.55% Insight 2024 中国开源开发者报告重点聚焦大模型，本章节以大模型 LLM 开发技术栈作为切入点，将深入探讨以下中国 AI 大模型领域的代表性开源项目社区。这些开源项目社区覆盖了深度学习框架、向量数据库、AI辅助编程、LLM 应用开发框架、模型微调、推理优化、LLM Agent，以及检索增强生成（RAG）等多个关键技术栈。为了更全面客观地展示中国大模型 LLM 开发技术栈的开源通个人用户。OpenAI 在 ChatGPT 上一个重要且成功的操作就是把大模型从学术界、工业界直接推向了普通个体，让 C 端用户切实感受到了大模型的可能性与魅力。这一点被国内的大模型厂商广泛学习。在 B 站刷视频，国内知名的那几个大模型厂商的广告，你一个也不会落下。受到大家的认可与喜爱固然重要，但对于 C 端用户，有两个需要时刻牢记的问题：一是 C 端用户是没有忠诚度的，谁免费就

0 码力 | 111 页 | 11.44 MB | 8 月前
3
Nacos架构&原理

103 Nacos 账号权限体系 103 Nacos 认证机制 110 Nacos 前端设计 117 Nacos 前端设计 117 Nacos 性能报告 122 Nacos Naming 大规模测试报告 122 Nacos ⽣态 130 Nacos Spring 生态 130 Nacos Docker & Kubernetes 生态 137 Nacos 服务网格生态 148 Nacos 在全量拉取操作完成之后，Nacos 的每台机器上都维护了当前的所有注册上来的非持久化实例数据。数据校验在 Distro 集群启动之后，各台机器之间会定期的发送心跳。心跳信息主要为各个机器上的所有数据的元信息（之所以使用元信息，是因为需要保证网络中数据传输的量级维持在⼀个较低水平）。这种数据校验会以心跳的形式进行，即每台机器在固定时间间隔会向其他机器发起⼀次数据校验请求。⼀旦在数据校验过程中，某台机器发现其他⼀旦在数据校验过程中，某台机器发现其他机器上的数据与本地数据不⼀致，则会发起⼀次全量拉取请求，将数据补齐。写操作对于⼀个已经启动完成的 Distro 集群，在⼀次客户端发起写操作的流程中，当注册非持久化的实例的写请求打到某台 Nacos 服务器时，Distro 集群处理的流程图如下。 Nacos 架构 < 40 整个步骤包括几个部分（图中从上到下顺序）：  前置的 Filter 拦截请求，并根据请求中包含的 IP

0 码力 | 326 页 | 12.83 MB | 9 月前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

推理能力：核心突破，专项升级  推理能力 • 强化学习驱动：DeepSeek R1-Zero 是首个完全基于强化学习（RL）训练的推理模型，无需任何监督微调（SFT）步骤，打破传统模型依赖大量标注数据的惯例。DeepSeek-R1 采用强化学习作为核心训练方法，显著提升了模型的推理能力和语言表达的可读性。 • 推理能力专项提升：在除了利用强化学习模型结合跨领域训练提升模型综合技能以外，展示推理路径自我修正 DeepSeek R1 的核心突破在于其通过强化学习驱动的推理能力。该模型在训练过程中，通过强化学习技术，显著提升模型的推理能力，使其在数学、编程和自然语言推理等任务上表现出色。传统依赖：大规模监督微调（SFT）创新思路：强化学习（RL）驱动  推理效率 • 长思维链支持：DeepSeek R1 支持长链推理，能够生成数万字的点，解决强化学习训练初期的不稳定问题，规范模型的输出格式和推理链条，使其更符合人类可读性。 • 数据来源与特点：这些数据部分来源于清理后的R1-Zero 输出，还包括人工后处理的长思维链（CoT）数据。其数量相对较少但质量高，经过精心设计，具有良好的可读性和结构化特点。 • 对模型训练的影响：冷启动数据为模型训练奠定了坚实的基础，使模型在后续的强化学习阶段能够更稳定地学习和优化。它解

0 码力 | 85 页 | 8.31 MB | 8 月前
3
普通人学AI指南

Intelligence，人工通用智能）是一种理论上的人工智能，它可以理解、学习和应用知识跨越各种不同领域，功能上等同于人类智能。与专用人工智能（AI）不同，AGI 能够执行任何智力任务，具备自我意识和自适应学习能力。AGI 的研发目标是创造出可以广泛地模拟人类认知能力的智能系统。 1.3 大模型大模型通常指的是大规模的人工智能模型，这类模型通过训练大量的数据来获得广泛的知识和能力。这些得广泛的知识和能力。这些模型通常具有庞大的参数数量，能够处理复杂的任务，如自然语言理解、图像识别、语音识别等。闭源大模型包括 OpenAI 的 GPT 系列和 Google 的 BERT。这些模型因其高效的学习能力和强大的通用性而受到关注。开源大模型以 Meta 的 Llama 系列，2024 年 4 月，Llama3 发布，包括 8B 和 70B 模型。图 2，时间线主要根据技术论文的发布日期（例如提交至 arXiv 的缩写，表示万亿。在 AI 大模型中，”T” 常用来表示模型在训练中处理的 Token 数量。Token 是指模型处理的基本单元，可以是一个单词、子词，或者字符等。在大规模预训练语言模型的训练中，通常会提到模型是在多少个 Token 上进行学习的，以表明模型的训练规模和数据量。例如：LLaMA3 语言模型使用了超过 15T 个 token 进行训练。 2 AI 工具梳理大家有没有觉得 AI 工

0 码力 | 42 页 | 8.39 MB | 8 月前
3
人工智能安全治理框架 1.0

各环节都面临安全风险，既面临自身技术缺陷、不足带来的风险，也面临不当使用、滥用甚至恶意利用带来的安全风险。 3.1 人工智能内生安全风险 3.1.1 模型算法安全风险（a）可解释性差的风险。以深度学习为代表的人工智能算法内部运行逻辑复杂，推理过程属黑灰盒模式，可能导致输出结果难以预测和确切归因，如有异常难以快速修正和溯源追责。（b）偏见、歧视风险。算法设计及训练过程中，个人偏见被有意、无意引入，、无意引入，或者因训练数据集质量问题，导致算法设计目的、输出结果存在偏见或歧视，甚至输出存在民族、宗教、国别、地域等歧视性内容。（c）鲁棒性弱风险。由于深度神经网络存在非线性、大规模等特点，人工智能易受复杂多变运行环境或恶意干扰、诱导的影响，可能带来性能下降、决策错误等诸多问题。- 4 - 人工智能安全治理框架（d）被窃取、篡改的风险。参数、结构、功能等算法核心信息，面临被（b）用于开展认知战的风险。人工智能可被利用于制作传播虚假新闻、- 7 - 人工智能安全治理框架图像、音频、视频等，宣扬恐怖主义、极端主义、有组织犯罪等内容，干涉他国内政、社会制度及社会秩序，危害他国主权；通过社交机器人在网络空间抢占话语权和议程设置权，左右公众价值观和思维认知。 3.2.4 伦理域安全风险（a）加剧社会歧视偏见、扩大智能鸿沟的风险。利用人工智能收集分析人类行为、社会地位、经济状态、个体性格等，对不同人群进行标识分类、区

0 码力 | 20 页 | 3.79 MB | 1 月前
3
TiDB v8.4 中文手册

· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 526 5.2.1 在 TiKV 部署目标机器上添加数据盘 EXT4 文件系统挂载参数 · · · · · · · · · · · · · · · · · · · · · · · · · 526 5.2.2 检测及关闭系统 swap· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 529 5.2.4 检测及关闭目标部署机器的防火墙· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 529 5.2.5 检测及安装通过 Multi-Raft Learner 协议实时从 TiKV 复制数据，确保行存储引擎 TiKV 和列存储引擎 TiFlash 之间的数据强一致。TiKV、TiFlash 可按需部署在不同的机器，解决 HTAP 资源隔离的问题。 • 云原生的分布式数据库专为云而设计的分布式数据库，通过 TiDB Operator 可在公有云、私有云、混合云中实现部署工具化、自动化。 • 兼容 MySQL

0 码力 | 5072 页 | 104.05 MB | 10 月前
3

共 114 条前往

页

分类

语言

格式