 大数据集成与Hadoop - IBMIBM软件 2014 年 9 月 大数据集成与 Hadoop 可最大限度降低Hadoop计划风险并提高ROI的最佳实践 2 大数据集成与 Hadoop 简介 Apache Hadoop技术通过支持新的流程和架构,不断改进 大数据措施的经济性和活力,这样不仅有助于削减成本、增加 收益,而且还能树立竞争优势。Hadoop是一个开源软件项目, 支持在多个商业服务器群集间分散处理和存储大型数据集, (用于存储大型文件)和Hadoop分布式并行处理框架(称为 MapReduce)。 但是,Hadoop基础架构本身并没有提供完整的大数据集成解 决方案,摆在人们面前的既有挑战,也有机遇,只有处理好这些 问题,才能安享各项优势,最大限度提高投资回报率 (ROI)。 大数据集成对于Hadoop措施的重要性 Hadoop的迅速崛起推动企业在如何抽取、管理、转换、存储和 分析大数据方面实现了范式转变。无论是要更深入的分析,还是 收入。 依靠收集、移动、转换、清除、集成、治理、探索以及分析多种 不同来源的大量不同类型的数据来实现大数据与Hadoop项 目。实现所有这些目标需要运用富有弹性的端到端信息集成 解决方案,该解决方案不仅可实现大规模扩展,还能提供支持 Hadoop项目所需的基础架构、功能、流程和行为准则。 “在很大程度上,80%的大数据项目开发 精力用于数据集成,只有20%的精力投入 到数据分析中。”0 码力 | 16 页 | 1.23 MB | 1 年前3 大数据集成与Hadoop - IBMIBM软件 2014 年 9 月 大数据集成与 Hadoop 可最大限度降低Hadoop计划风险并提高ROI的最佳实践 2 大数据集成与 Hadoop 简介 Apache Hadoop技术通过支持新的流程和架构,不断改进 大数据措施的经济性和活力,这样不仅有助于削减成本、增加 收益,而且还能树立竞争优势。Hadoop是一个开源软件项目, 支持在多个商业服务器群集间分散处理和存储大型数据集, (用于存储大型文件)和Hadoop分布式并行处理框架(称为 MapReduce)。 但是,Hadoop基础架构本身并没有提供完整的大数据集成解 决方案,摆在人们面前的既有挑战,也有机遇,只有处理好这些 问题,才能安享各项优势,最大限度提高投资回报率 (ROI)。 大数据集成对于Hadoop措施的重要性 Hadoop的迅速崛起推动企业在如何抽取、管理、转换、存储和 分析大数据方面实现了范式转变。无论是要更深入的分析,还是 收入。 依靠收集、移动、转换、清除、集成、治理、探索以及分析多种 不同来源的大量不同类型的数据来实现大数据与Hadoop项 目。实现所有这些目标需要运用富有弹性的端到端信息集成 解决方案,该解决方案不仅可实现大规模扩展,还能提供支持 Hadoop项目所需的基础架构、功能、流程和行为准则。 “在很大程度上,80%的大数据项目开发 精力用于数据集成,只有20%的精力投入 到数据分析中。”0 码力 | 16 页 | 1.23 MB | 1 年前3
 通过Oracle 并行处理集成 Hadoop 数据2011 年 1 月 通过 Oracle 并行处理集成 Hadoop 数据 1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 引言 许多垂 作为示例,但这里的策略同样适用于其他分 布式存储机制。本文中介绍了各种访问方法,还通过一个具体示例说明了其中一 种访问方法的实现。 2 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 外部 Hadoop 数据的访问方法 要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据,最简单的方法莫过于使用 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 图 2. 利用表函数进行并行处理 由于表函数可以并行运行,Hadoop 流作业也可以不同程度地并行运行,并且后者不受 Oracle 查询协调器的控制,这种情况下,队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据0 码力 | 21 页 | 1.03 MB | 1 年前3 通过Oracle 并行处理集成 Hadoop 数据2011 年 1 月 通过 Oracle 并行处理集成 Hadoop 数据 1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 引言 许多垂 作为示例,但这里的策略同样适用于其他分 布式存储机制。本文中介绍了各种访问方法,还通过一个具体示例说明了其中一 种访问方法的实现。 2 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 外部 Hadoop 数据的访问方法 要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据,最简单的方法莫过于使用 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 图 2. 利用表函数进行并行处理 由于表函数可以并行运行,Hadoop 流作业也可以不同程度地并行运行,并且后者不受 Oracle 查询协调器的控制,这种情况下,队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据0 码力 | 21 页 | 1.03 MB | 1 年前3
 1.4 使用 Docker 构建企业持续集成服务0 码力 | 17 页 | 1.86 MB | 1 年前3 1.4 使用 Docker 构建企业持续集成服务0 码力 | 17 页 | 1.86 MB | 1 年前3
 机器学习课程-温州大学-08机器学习-集成学习1 2022年12月 机器学习-集成学习 黄海广 副教授 2 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 3 1.集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 4 Bagging 结果进行综合产生最终的预测结果: 集成学习 模型n …… 模型1 模型2 预测n …… 预测1 预测2 训练 数据 最终 预测 结果 测试 数据 5 Boosting 训练过程为阶梯状,基模型 按次序一一进行训练(实现 上可以做到并行),基模型 的训练集按照某种策略每次 都进行一定的转化。对所有 基模型预测的结果进行线性 综合产生最终的预测结果。 集成学习 模型n 最终 最终 预测 结果 模型2 预测n …… 预测1 预测2 转化 模型1 模型3 转化 转化 训练 数据 测试 数据 6 集成学习 模型n …… 模型1 模型2 预测n …… 预测1 预测2 训练 数据 第二 层数 据 Stacking 最终 预测 结果 Stacking 将训练好的所有基模型对训练基进行预测,第j个基模型对第i个训练样本的预测值将作为新的训0 码力 | 50 页 | 2.03 MB | 1 年前3 机器学习课程-温州大学-08机器学习-集成学习1 2022年12月 机器学习-集成学习 黄海广 副教授 2 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 3 1.集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 4 Bagging 结果进行综合产生最终的预测结果: 集成学习 模型n …… 模型1 模型2 预测n …… 预测1 预测2 训练 数据 最终 预测 结果 测试 数据 5 Boosting 训练过程为阶梯状,基模型 按次序一一进行训练(实现 上可以做到并行),基模型 的训练集按照某种策略每次 都进行一定的转化。对所有 基模型预测的结果进行线性 综合产生最终的预测结果。 集成学习 模型n 最终 最终 预测 结果 模型2 预测n …… 预测1 预测2 转化 模型1 模型3 转化 转化 训练 数据 测试 数据 6 集成学习 模型n …… 模型1 模型2 预测n …… 预测1 预测2 训练 数据 第二 层数 据 Stacking 最终 预测 结果 Stacking 将训练好的所有基模型对训练基进行预测,第j个基模型对第i个训练样本的预测值将作为新的训0 码力 | 50 页 | 2.03 MB | 1 年前3
 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖© 2015 The MathWorks, Inc. MATLAB与Spark/Hadoop相集成:实现大 数据的处理和价值挖 马文辉 2 内容 ▪ 大数据及其带来的挑战 ▪ MATLAB大数据处理 ➢ tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 Computing Toolbox) ▪ MATLAB集群之上的分布式计算 (MDCS, MATLAB Distributed Computing Server) 9 MATLAB与Spark/Hadoop集成 MDCS 10 Hadoop Hadoop是跨计算机集群的分布式大数据处理平台,由两部分组成: • YARN (Yet Another Resource Negotiator) – 资源调度模型,实现数据跨节点的最小移动0 码力 | 17 页 | 1.64 MB | 1 年前3 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖© 2015 The MathWorks, Inc. MATLAB与Spark/Hadoop相集成:实现大 数据的处理和价值挖 马文辉 2 内容 ▪ 大数据及其带来的挑战 ▪ MATLAB大数据处理 ➢ tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 Computing Toolbox) ▪ MATLAB集群之上的分布式计算 (MDCS, MATLAB Distributed Computing Server) 9 MATLAB与Spark/Hadoop集成 MDCS 10 Hadoop Hadoop是跨计算机集群的分布式大数据处理平台,由两部分组成: • YARN (Yet Another Resource Negotiator) – 资源调度模型,实现数据跨节点的最小移动0 码力 | 17 页 | 1.64 MB | 1 年前3
 OpenShift Container Platform 4.8 Service Mesh的更新 Service Mesh 集成。 1.2.2.12.6. Istio 1.9 支持 Service Mesh 2.1 基于 Istio 1.9,它带来了大量新功能和产品增强。虽然大多数 Istio 1.9 功能被支持,但请 注意以下例外: OpenShift Container Platform 4.8 Service Mesh 10 虚拟机集成尚不受支持 尚不支持 Kubernetes 网关 API 尚不支持远程获取和加载 WebAssembly HTTP 过滤器 尚不支持使用 Kubernetes CSR API 的自定义 CA 集成 监控流量的请求分类是一个技术预览功能 通过授权策略的 CUSTOM 操作与外部授权系统集成是一项技术预览功能 1.2.2.12.7. 改进了 Service Mesh operator 性能 Red Hat OpenShift Service Service Mesh 项目中创建,Component 设为 Kiali。 Kiali 中已知的问题: KIALI-2206 当您第一次访问 Kiali 控制台时,浏览器中没有 Kiali 的缓存数据,Kiali 服务详情页面 的 Metrics 标签页中的 “View in grafana” 链接会重定向到错误的位置。只有在第一次访问 Kiali 才 会出现这个问题。 KIALI-5070 码力 | 344 页 | 3.04 MB | 1 年前3 OpenShift Container Platform 4.8 Service Mesh的更新 Service Mesh 集成。 1.2.2.12.6. Istio 1.9 支持 Service Mesh 2.1 基于 Istio 1.9,它带来了大量新功能和产品增强。虽然大多数 Istio 1.9 功能被支持,但请 注意以下例外: OpenShift Container Platform 4.8 Service Mesh 10 虚拟机集成尚不受支持 尚不支持 Kubernetes 网关 API 尚不支持远程获取和加载 WebAssembly HTTP 过滤器 尚不支持使用 Kubernetes CSR API 的自定义 CA 集成 监控流量的请求分类是一个技术预览功能 通过授权策略的 CUSTOM 操作与外部授权系统集成是一项技术预览功能 1.2.2.12.7. 改进了 Service Mesh operator 性能 Red Hat OpenShift Service Service Mesh 项目中创建,Component 设为 Kiali。 Kiali 中已知的问题: KIALI-2206 当您第一次访问 Kiali 控制台时,浏览器中没有 Kiali 的缓存数据,Kiali 服务详情页面 的 Metrics 标签页中的 “View in grafana” 链接会重定向到错误的位置。只有在第一次访问 Kiali 才 会出现这个问题。 KIALI-5070 码力 | 344 页 | 3.04 MB | 1 年前3
 第29 期| 2023 年9 月- 技术雷达live 试验 DataOps.live 是一个自动化 Snowflake 环境的数据平台。受 DevOps 实践启发,DataOps.live 可以像在其他网 络平台一样在数据平台中实施持续集成和持续交付(CI/CD),自动化测试,可观测性和代码管理。我们的团队 正在用它来管理数据产品的全生命周期,包括代码和数据的开发、分支、部署。通过它的自动化环境管理,能 够轻易建立、修改、自动销毁 Studio,一个旨在快速探索和原型生成 AI 模型的控制台;以及 Vertex AI Extensions,提 供完全托管的开发人员工具,通过 API 连接 AI 模型和实时数据或操作。 该平台已经发展到提供 GenAI 模型和 集成支持,我们非常期待能更广泛地使用它。 28. Immuta 试验 自从我们上次介绍了 Immuta 以来,我们的团队在使用这个数据安全平台方面已经积累了丰富的经验。它的亮 点包括能够将订阅和 All Rights Reserved. 21 问控制(ABAC) 允许我们将标签关联到数据源;如果用户与相同的标签关联,就会获得访问权限。通过利用 Immuta 和 Snowflake 的集成,我们已经能够以自助方式自动授权对数据产品或数据集的访问。当“用户”请 求访问数据产品或数据集时,一旦获得批准,数据产品标签将被关联到“用户”作为属性。由于“用户”的属 性与数据源上的标签匹配,因此根据0 码力 | 43 页 | 2.76 MB | 1 年前3 第29 期| 2023 年9 月- 技术雷达live 试验 DataOps.live 是一个自动化 Snowflake 环境的数据平台。受 DevOps 实践启发,DataOps.live 可以像在其他网 络平台一样在数据平台中实施持续集成和持续交付(CI/CD),自动化测试,可观测性和代码管理。我们的团队 正在用它来管理数据产品的全生命周期,包括代码和数据的开发、分支、部署。通过它的自动化环境管理,能 够轻易建立、修改、自动销毁 Studio,一个旨在快速探索和原型生成 AI 模型的控制台;以及 Vertex AI Extensions,提 供完全托管的开发人员工具,通过 API 连接 AI 模型和实时数据或操作。 该平台已经发展到提供 GenAI 模型和 集成支持,我们非常期待能更广泛地使用它。 28. Immuta 试验 自从我们上次介绍了 Immuta 以来,我们的团队在使用这个数据安全平台方面已经积累了丰富的经验。它的亮 点包括能够将订阅和 All Rights Reserved. 21 问控制(ABAC) 允许我们将标签关联到数据源;如果用户与相同的标签关联,就会获得访问权限。通过利用 Immuta 和 Snowflake 的集成,我们已经能够以自助方式自动授权对数据产品或数据集的访问。当“用户”请 求访问数据产品或数据集时,一旦获得批准,数据产品标签将被关联到“用户”作为属性。由于“用户”的属 性与数据源上的标签匹配,因此根据0 码力 | 43 页 | 2.76 MB | 1 年前3
 OpenShift Container Platform 4.8
Web 控制台Platform x86_64。 此发行版本只支持在 OpenShift 集群中包含所有 Service Mesh 组件的配置。它不支持在集群之外 或在多集群场景中管理微服务。 这个版本只支持没有集成外部服务的配置,比如虚拟机。 1.3.1. Red Hat OpenShift Service Mesh 支持的 Kiali 配置 Kiali 观察控制台只支持 Chrome 、Edge 、Firefox ali pod 会 重新启动,并在 Kiali pod 重新启动的过程中在 Graph 页中显示错误信息。 KIALI-2206 当您第一次访问 Kiali 控制台时,浏览器中没有 Kiali 的缓存数据,Kiali 服务详情页面 的 Metrics 标签页中的 “View in grafana” 链接会重定向到错误的位置。只有在第一次访问 Kiali 才 会出现这个问题。 KIALI-507 上下文信息和图表的交互。Kiali 还提供了验证 Istio 配置(如网关、目的规则、虚拟服务、网格策略等 等)的功能。Kiali 提供了详细的指标数据,并可使用基本的 Grafana 集成来进行高级查询。通过将 Jaeger 集成到 Kiali 控制台来提供分布式追踪。 默认情况下,Kiali 作为 Red Hat OpenShift Service Mesh 的一部分被安装 。 2.2.2. Kiali0 码力 | 87 页 | 1.58 MB | 1 年前3 OpenShift Container Platform 4.8
Web 控制台Platform x86_64。 此发行版本只支持在 OpenShift 集群中包含所有 Service Mesh 组件的配置。它不支持在集群之外 或在多集群场景中管理微服务。 这个版本只支持没有集成外部服务的配置,比如虚拟机。 1.3.1. Red Hat OpenShift Service Mesh 支持的 Kiali 配置 Kiali 观察控制台只支持 Chrome 、Edge 、Firefox ali pod 会 重新启动,并在 Kiali pod 重新启动的过程中在 Graph 页中显示错误信息。 KIALI-2206 当您第一次访问 Kiali 控制台时,浏览器中没有 Kiali 的缓存数据,Kiali 服务详情页面 的 Metrics 标签页中的 “View in grafana” 链接会重定向到错误的位置。只有在第一次访问 Kiali 才 会出现这个问题。 KIALI-507 上下文信息和图表的交互。Kiali 还提供了验证 Istio 配置(如网关、目的规则、虚拟服务、网格策略等 等)的功能。Kiali 提供了详细的指标数据,并可使用基本的 Grafana 集成来进行高级查询。通过将 Jaeger 集成到 Kiali 控制台来提供分布式追踪。 默认情况下,Kiali 作为 Red Hat OpenShift Service Mesh 的一部分被安装 。 2.2.2. Kiali0 码力 | 87 页 | 1.58 MB | 1 年前3
 09-harbor助你玩转云原生-邹佳初识Harbor:云原生制品仓库服务 - 使用Harbor搭建私有制品仓库服务 - 资源隔离与多租户管理模型 - 制品的高效分发(复制、缓存与P2P集成) - 制品的安全分发(签名、漏洞扫描与安全策略) - 资源清理与垃圾回收 - 构建高可用(HA)制品仓库服务 - Harbor集成与扩展 - 路线图 - 参与贡献Harbor社区 云原生与制品管理 [1] 云原生(cloud-native)技术使组织能 整体架构 截止:v2.0 初识Harbor [4] – 功能 … 项目N 制品管理 访问控制(RBAC) Tag清理策略 Tag不可变策略 P2P预热策略 缓存策略 机器人账户 Webhooks 项目配置 项目1 项目标签管理 项目扫描器设置 项目级日志 系统设置(鉴权模式等) 内容复制 垃圾回收(GC) pull/push ... Project operation & management Settings 提供以项目为单位的逻辑隔离,存储共享 不同角色具有不同的访问权限,可以与其它用户系统集成 配额管理 制品的高效分发-复制 [1] 基于策略的内容复制机制:支持多种过滤器(镜像库、tag和标签)与多种触 发模式(手动,基于时间以及定时)且实现对推送和拉取模式的支持 初始全量复制0 码力 | 32 页 | 17.15 MB | 6 月前3 09-harbor助你玩转云原生-邹佳初识Harbor:云原生制品仓库服务 - 使用Harbor搭建私有制品仓库服务 - 资源隔离与多租户管理模型 - 制品的高效分发(复制、缓存与P2P集成) - 制品的安全分发(签名、漏洞扫描与安全策略) - 资源清理与垃圾回收 - 构建高可用(HA)制品仓库服务 - Harbor集成与扩展 - 路线图 - 参与贡献Harbor社区 云原生与制品管理 [1] 云原生(cloud-native)技术使组织能 整体架构 截止:v2.0 初识Harbor [4] – 功能 … 项目N 制品管理 访问控制(RBAC) Tag清理策略 Tag不可变策略 P2P预热策略 缓存策略 机器人账户 Webhooks 项目配置 项目1 项目标签管理 项目扫描器设置 项目级日志 系统设置(鉴权模式等) 内容复制 垃圾回收(GC) pull/push ... Project operation & management Settings 提供以项目为单位的逻辑隔离,存储共享 不同角色具有不同的访问权限,可以与其它用户系统集成 配额管理 制品的高效分发-复制 [1] 基于策略的内容复制机制:支持多种过滤器(镜像库、tag和标签)与多种触 发模式(手动,基于时间以及定时)且实现对推送和拉取模式的支持 初始全量复制0 码力 | 32 页 | 17.15 MB | 6 月前3
 企业云原生的探索与落地深圳沙龙-RacherLabs-20-11-14/应用容器化最佳实践✓ 系统部署架构及当前生产高可用方案 ✓ 系统目前日常及特殊高峰期资源使用情况(CPU、内存等) ✓ 系统当前发布方式(是否已实现持续集成或构建管理) ✓ 是否有特定的操作系统、GPU或其他底层资源依赖 ✓ 系统间集成方式(应用层集成、数据库层集成) ✓ 业务场景及用户使用情况(用户数、并发数、集中时间段) ✓ 系统目前是否有已知的安全漏洞及修复计划 ✓ 是否可允许停机升级、停机升级窗口时间段及时长 像,减少体积 串联Dockerfile 命令 因为每一个RUN命令对应新的镜像层, 我们应该将多个命令通过&&等方式组 成同一行命令,减少镜像层数 缓存清理 执行一些安装命令如yum install、apt- get install时记得安装完后将缓存清理 干净 © Copyright 2020 Rancher Labs. All Rights Reserved. Confidential 尽量确保镜像的安全、精简、可读、易维护:选择精简安全的系统 镜像、串联执行命令减少镜像层数、多阶段构建、缓存清理、只从 可信源安装软件、只安装必要的软件、添加维护人员信息、添加必 要的备注说明…… © Copyright 2020 Rancher Labs. All Rights Reserved. Confidential Dockerfile缓存陷阱 • 请总是将 apt-get update 和 apt-get install0 码力 | 28 页 | 3.47 MB | 1 年前3 企业云原生的探索与落地深圳沙龙-RacherLabs-20-11-14/应用容器化最佳实践✓ 系统部署架构及当前生产高可用方案 ✓ 系统目前日常及特殊高峰期资源使用情况(CPU、内存等) ✓ 系统当前发布方式(是否已实现持续集成或构建管理) ✓ 是否有特定的操作系统、GPU或其他底层资源依赖 ✓ 系统间集成方式(应用层集成、数据库层集成) ✓ 业务场景及用户使用情况(用户数、并发数、集中时间段) ✓ 系统目前是否有已知的安全漏洞及修复计划 ✓ 是否可允许停机升级、停机升级窗口时间段及时长 像,减少体积 串联Dockerfile 命令 因为每一个RUN命令对应新的镜像层, 我们应该将多个命令通过&&等方式组 成同一行命令,减少镜像层数 缓存清理 执行一些安装命令如yum install、apt- get install时记得安装完后将缓存清理 干净 © Copyright 2020 Rancher Labs. All Rights Reserved. Confidential 尽量确保镜像的安全、精简、可读、易维护:选择精简安全的系统 镜像、串联执行命令减少镜像层数、多阶段构建、缓存清理、只从 可信源安装软件、只安装必要的软件、添加维护人员信息、添加必 要的备注说明…… © Copyright 2020 Rancher Labs. All Rights Reserved. Confidential Dockerfile缓存陷阱 • 请总是将 apt-get update 和 apt-get install0 码力 | 28 页 | 3.47 MB | 1 年前3
共 189 条
- 1
- 2
- 3
- 4
- 5
- 6
- 19














 
 