高效智能运维[云+社区技术沙龙第29期] - 蓝鲸研发运维技术PaaS体系实践-张敏所使用的开发语言、开发框架、操作系统、数据库等技术, 是没有直观规律的。 开发商很难为了运维体系而对架构或技术做大规模的修改。 有几乎所有的业务类型 有几乎所有的流行技术 300多款游戏相互之间是没有关系的。 发布变更、故障处理等运维操作场景和操作流程是没有直 观规律的。 服务器数量,也就是操作单元,有二十余万。 随着容器技术的普及,操作单元的数量还会暴涨。 所有业务之间无关联 业务操作单元暴涨 运维转型,困难重重 准备 代码 部署 应用 开发 监控 告警 日志 追溯 运维开发 负责企业技术运营领域(CI、CD、CO)相关场景的系统构建,例如持续集成、日志分析、资 源管理、版本发布、环境变更、监控处理、灾备切换、日常巡检、电子工单、运营分析、运营 管控、经营管理等。 落地企业工具文化。 回顾一下传统烟囱式模式的弊端 …… 调度引擎 容器管理 文件传输 指令执行 编译构建 开发测试服 管控平台 PaaS平台:开发框架/API集成 统一配置管理 模型定义 自动采集 配置维护 拓扑视图 配置消费 统一运维门户 可视化大屏、统一报表、统一权限、移动运维 变更 流程融合 事件 问题 请求 知识库 SLA 服务目录 流程引擎 运维流程管理 配置 平台 容器平台 作业 平台 视图 嘉为蓝鲸CO:数据分析与智能运营解决方案 中 间 服 务 层 数据总线(数据交换、同步、共享)0 码力 | 26 页 | 8.25 MB | 1 年前3
CloudExplorer 3.0 管理员手册v1.2设置申请向导中租期选项...........................................................................276 10.2.2 配置到期处理策略及到期处理...................................................................276 10.2.3 查看到期资源并操作回收...... Keycloak 自带的 OTP 认证要求用户下载支持 OTP 的软件,每个用户都需要新绑 定令牌。无法实现跨应用的动态令牌共享。 客户有自己的 Radius 服务器,可以对集团内所有应用的二次认证功能的统一处理。 我们对接 Radius 认证服务器后,企业内所有用户都使用统一的令牌系统(Radius 服务器) 进行二次认证,无需下载新的应用和绑定新的动态令牌。 配置步骤如下。 第一步,创建一个新的认证流程。通常可以通过复制来快速创建。 按业务/项目维度查看管理,按"业务系统/环境类型/环境/应用主机分组"多级维度分组 管理,快速查看定位到某业务系统的某个开发测试或生产环境下部署某应用的虚拟机。 按组织/业务混合维度,部门/项目/环境用途查看。 在需要批量处理操作时,能选择某个分类的资源执行,如针对指定分类的虚拟机批量 执行脚本、部署变更软件、操作系统环境以及部署监控等代理。 按分类查看费用和资源使用情况,比如各部门、各项目、各业务系统、各类中间件数0 码力 | 308 页 | 0 Bytes | 1 年前3
Red Hat OpenShift GitOps 1.13 了解 OpenShift GitOps和应用程序配置的唯一来源。此 Git 存储库包含指定环境中所需的基础架构声明描述,并包含自动流程, 以使您的环境与上述状态匹配。它还包含该系统的完整状态,以便可查看并可审核更改到系统状态。通过 使用 GitOps,您可以处理基础架构和应用程序配置 sprawl 的问题。 GitOps 将基础架构和应用程序定义定义为代码。然后,它会使用此代码来管理多个工作区和集群来简化 基础架构和应用程序配置的创建过程。根据代码原则,您可以在 Argo CD Application CR。 ApplicationSet Controller (Argo CD ApplicationSet Controller) Argo CD 中存在并处理 ApplicationSet CR 的自定义 Kubernetes 控制器。此控制器会根据 ApplicationSet CR 的内容自动创建、更新和删除 Argo CD 应用程序。 AppProject 相关的自定义资 义资源 源对 对象和定 象和定义 义。 。 Operator 和 和 Argo CD 日志。 日志。 警告和 警告和错误级 错误级事件。 事件。 先决条件 先决条件 以管理 以管理员 员身份登 身份登录 录到 到 OpenShift Container Platform 集群。 集群。0 码力 | 17 页 | 203.28 KB | 1 年前3
高效智能运维[云+社区技术沙龙第29期] - 腾讯智能运维(Metis)项目实践Metis 的研究方向 展望未来 智能运维(AIOps) 基于机器学习的智能运维 发现问题 • 时间序列异常 • 日志分析异常 • 设备性能异常 分析问题 • 多维下钻分析 • 关联事件分析 • 容量预估分析 解决问题 • 扩容 • 决策 • 调度 • 优化 智能运维学件库 • 可重用 • 可演进 • 可了解 智能运维学件库 智能运维能力框架体系 AIOps 多维时间序列分析 多维下钻 目录 04 Metis 的研究方向 展望未来 异常检测 单指标异常检测,多指标异常检测 根因分析 智能多维下钻分析,链路调用根源分析 告警收敛 事件与事件,事件与时序,时序与时序 日志分析 日志模板提取,日志异常检测,日志聚类分析 腾讯 Metis 智能运维方向 发现问题 分析问题 解决问题 THANKS 关注云加社区公众号0 码力 | 28 页 | 1.88 MB | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台面向开发者的云原生 DevOps 平台 角色: 产品 / 架构 开发 测试 运维 运维 / 开发 技术支持 事件 需求设计 架构设计 拆任务、写代码 代码集成 xN 单元测试验证 xN 代码扫描 xN 自测、联调 xN 集成验证 xN 写测试用例 系统验证 xN 自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN xN 部署预发环境 xN 部署生产环境 xN 部署 / 灰度上线 xN 监控 / 告警 xN 版本归档 xN 交付追踪 xN 数据度量 xN 服务、工单管理 事件、缺陷管理 想 法 用 户 运行阶段 需求阶段 研发阶段 现代软件交付挑战:开发 5 分钟,上线 2 小时 服务一:设计 | 代码编写 | 构建 |0 码力 | 59 页 | 81.43 MB | 1 年前3
Zadig 面向开发者的云原生 DevOps 平台面向开发者的云原生 DevOps 平台 角色: 产品/架构 开发 测试 运维 运维/开发 技术支持 事件 需求设计 架构设计 拆任务、写代码 代码集成 xN 单元测试验证 xN 代码扫描 xN 自测、联调 xN 集成验证 xN 写测试用例 系统验证 xN 自动化测试 xN 性能测试 xN 安全测试 xN 数据变更 xN 代码变更 xN 配置变更 xN 部署测试环境 xN 部署预发环境 部署预发环境 xN 部署生产环境 xN 部署/灰度上线 xN 监控/告警 xN 版本归档 xN 交付追踪 xN 数据度量 xN 服务、工单管理 事件、缺陷管理 想 法 用 户 运行阶段 需求阶段 研发阶段 现代软件交付挑战:开发 5 分钟,上线 2 小时 服务一:设计 | 代码编写 | 构建 | 测试 | 部署 | 发布 服务二:设计 | 代码编写 | 构建 | 测试 | 部署0 码力 | 59 页 | 23.57 MB | 1 年前3
CurveFS rename 接口实现方案: 将源文件的 nlink 加一 创建目标文件的 dentry 删除源文件的 dentry 将源文件的 nlink 减一 而每一步骤都有可能出错,chubaofs 针对以上的 4 步骤中出现的错误处理如下: 步骤 1 出错,啥事都没发生 步骤 2 出错,等同于创建硬连接出错,恢复机制如下: 将源文件的 nlink 减一 步骤 3 出错,相当于创建了硬链接,但是没有删除源文件,此时源文件和目标文件同时存在,恢复机制如下: 对于这一步出错,没有恢复机制,与 unlink 操作失败一样的处理(因为 dentry 删除了,而 inode 却没被回收,会被当成孤儿节点去处理) 如果采用 chubaofs 的方案,需要考虑以下问题: 以上的恢复进制如果没执行成功怎么办? 客户端存活的情况下,应该多尝试几次,直至成功 但是如果恢复机制尝试多次没成功,或者客户端挂掉、宕机该如何处理? 步骤 1:忽略 步骤 2:只是给 nlink + + 1 了,这个 ,同步骤 4 恢复机制一样,当做孤儿节点来处理 等同于 unlink 操作时删除了 dentry 而 nlink 没减一的情况 步骤 3: ,就会同时存在 src、dst 的 dentry,相当于多了一个硬链接,Linux 和 POSIX 这一步出错 接口中表明这允许一段时间内存在,但是最终还是要原子性,所以这一步出错会导致和本地文件系统不一致的行为: Linux 接口定义允许0 码力 | 15 页 | 555.93 KB | 6 月前3
CloudExplorer 3.0 部署运维手册v1.2.........................................................................................26 九、常见故障处理................................................................................................... 等详细 说明。CloudExplorer 云管平台采用微服务架构设计,通过本手册能快速了解 CloudExplorer 云管理平台的基础组件构成这样更方便以后在系统运维中更方便的去排查 问题、处理问题。解决了部署环境不统一、部署速度慢、遇到问题无从查起等问题。 二、逻辑架构 2.1 组件说明 CloudExplorer 平台采用 docker-compose 的方式维护整体平台的运行与服务之间的 sql 杭州飞致云信息科技有限公司 27 九、常见故障处理 9.1 连接资产异常 报错:500 Internal Server Error 处理:检查 CMP 和 JumpServer 的时间是否同步,不一致则会跳转失败报错 500 9.2 镜像拉取失败 报错:net/http: TLS handshake timeout 处理: 1)检查服务器是否连通外网 2)检查服务是否有访问仓库权限0 码力 | 29 页 | 0 Bytes | 1 年前3
FIT2CLOUD CloudExplorer 产品白皮书 v1.7测试人员需要获取应用运行环境资源以进行开发测试,通常需等待几小时、有时甚至几天几 周时间,特别是一些软件开发团队规模比较大、项目比较多的企业。有几个主要原因。 IT 部门在收到资源请求时经常有优先级更高的工作需要处理。 或者忙于处理其他业务团队的资源申请变更请求。 一些规模较大分工较细的组织还会涉及跨部门小组的流程协作(比如投产环节,部 署完虚拟机后需要给安全部门提申请把虚拟机管理信息加入到堡垒机并授权,部署 IP,负载均衡、RDS、对象存储、DNS 等。 2.3.2 登录概览 应用开发测试、运维人员以项目或组织工作空间区域用户登录后,可看到工作空间区域 下的各类资源的数量及当月已产生费用,并且能够看到自己申请未处理完成的请求订单,以 及等待自己处理的请求订单。可选择各类资源的申请选项申请资源。如图 10 所示。 杭州飞致云信息科技有限公司 软件用起来才有价值,才有改进的机会 19 图 10: Home 首页 2.3 按业务维度查看管理,按"业务系统/环境类型/应用主机分组"多级维度分组管理, 快速查看定位到某业务系统的某个开发测试或生产环境下部署某应用的虚拟机; 按组织/业务混合维度,部门/项目/环境用途查看。 在需要批量处理操作时,能选择某个分类的资源执行,如针对指定分类的虚拟机批 量执行脚本、部署变更软件、操作系统环境以及部署监控等代理。 按分类查看费用和资源使用情况,比如各部门、各项目、各业务系统、各类中间件0 码力 | 60 页 | 0 Bytes | 1 年前3
CloudExplorer 3.0 用户手册v1.2在【我的待办事项】面板中,如图 2-7 所示,可以看到当前的待办数量、通知数量, 选择后打开【待办】页面,选择【待办事项】进行处理,常见的待办事项有,审批资源申请 变更订单、回收优化资源要求待办等。 在【我的待办】面板中,列出了最近的五个待办事项,可选择待办事项打开【待办】页 面查看和处理待办事项。 杭州飞致云信息科技有限公司 19 图 2-7 账单汇总面板 杭州飞致云信息科技有限公司 20 对于异常状态的订单,可以选择【重试订单】或者【作废订单】,如图 3-11 所示。选 择需要重试的订单,在【操作】下拉菜单中选择【重试订单】会重新执行订单命令,【作 废订单】即中止订单审批流程,订单做作废处理。 图 3-11 重试和作废订单 3.6 SSH 登录虚拟机 如果配置了与 JumpServer 的集成,则可以在 Web 浏览器中 SSH 登陆到虚拟机操作 系统。操作步骤如下。 (1) 10-10 确认回收存储桶页面 杭州飞致云信息科技有限公司 93 11 人工服务申请及进度结果跟踪 在【工单中心】门户,可申请非自动化的 IT 服务,以提交工单方式申请,申请后可查 看工单审批和处理的进度,工单详情中会展示工单申请时填写的内容和进度。 11.1 申请工单 操作步骤如下。 (1) 以工作空间用户登录后,选择进入【工单中心】门户,在左边菜单中选择【提交工 单】打开【提交工单】页面。0 码力 | 102 页 | 0 Bytes | 1 年前3
共 11 条
- 1
- 2













