大数据集成与Hadoop - IBM年 9 月 大数据集成与 Hadoop 可最大限度降低Hadoop计划风险并提高ROI的最佳实践 2 大数据集成与 Hadoop 简介 Apache Hadoop技术通过支持新的流程和架构,不断改进 大数据措施的经济性和活力,这样不仅有助于削减成本、增加 收益,而且还能树立竞争优势。Hadoop是一个开源软件项目, 支持在多个商业服务器群集间分散处理和存储大型数据集, 并可根据 MapReduce)。 但是,Hadoop基础架构本身并没有提供完整的大数据集成解 决方案,摆在人们面前的既有挑战,也有机遇,只有处理好这些 问题,才能安享各项优势,最大限度提高投资回报率 (ROI)。 大数据集成对于Hadoop措施的重要性 Hadoop的迅速崛起推动企业在如何抽取、管理、转换、存储和 分析大数据方面实现了范式转变。无论是要更深入的分析,还是 希望获得更出色的洞察、新产品、新服务以及更高的服务水平,都 依靠收集、移动、转换、清除、集成、治理、探索以及分析多种 不同来源的大量不同类型的数据来实现大数据与Hadoop项 目。实现所有这些目标需要运用富有弹性的端到端信息集成 解决方案,该解决方案不仅可实现大规模扩展,还能提供支持 Hadoop项目所需的基础架构、功能、流程和行为准则。 “在很大程度上,80%的大数据项目开发 精力用于数据集成,只有20%的精力投入 到数据分析中。” —Intel0 码力 | 16 页 | 1.23 MB | 1 年前3
通过Oracle 并行处理集成 Hadoop 数据Oracle 并行处理集成 Hadoop 数据 1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 引言 许多垂直行业都在关注文件系统中庞大的数据。这些数据中通常包含大量无关的 关的 明细信息,以及部分可用于趋势分析或丰富其他数据的精华信息。尽管这些数据 存储在数据库之外,但一些客户仍然希望将其与数据库中的数据整合在一起以提 取对业务用户有价值的信息。 本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注 意,本文选择了 Hadoop 和 HDFS 作为示例,但这里的策略同样适用于其他分 布式存储机制。本文中介绍了 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 外部 Hadoop 数据的访问方法 要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据,最简单的方法莫过于使用 外部表。请参阅这里了解外部表。 外部表以表的形式展示存储在文件系统中的数据,并且可在 SQL 查询中完全透明地使用。0 码力 | 21 页 | 1.03 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS--πDataCS简介 兼容龙蜥的云原生大模型数据计算系统 拓数派产品市场总监 吴疆 吴疆 深耕云计算和数据库行业十余年 拓数派(Openpie)产品市场总监 毕业于清华大学计算机系,先后在IBM,EMC, Pivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 )是立足于国内,基础数据计算领域的高科技创新机构。 作 为 国 内 云 上 数 据 库 和 数 据 计 算 领 域 的 引 领 者 , 拓 数 派 以 “Data Computing for New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、 独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准, 驱 驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化0 码力 | 29 页 | 7.46 MB | 1 年前3
大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文0 码力 | 28 页 | 1.69 MB | 1 年前3
Go持续集成• 崔英杰 Go的持续集成 实践分享 简单 激情 速度快 聚焦 极致 可信赖 什么是持续集成 持续集成 是一种软件开发实践。在持续集 成中,团队成员频繁集成他们的工作成果, 一般每人每天至少集成一次,也可以多次。 每次集成会经过自动构建(包括自动测试) 的 检验,以尽快发现集成错误。 — Martin Fowler 简单 激情 速度快 聚焦 极致 可信赖 持续集成的好处 1. 快速发现修复错误 持续发布 4. 减少代码审核时间 5. 减少对个体依赖 简单 激情 速度快 聚焦 极致 可信赖 石器时代 简单 激情 速度快 聚焦 极致 可信赖 分享惨案经历 1. 无单元测试,手工集成测试 2. 测试用例300多个,需要一个星期 3. 面对业务压力,规则形同虚设 4. 深夜事故 简单 激情 速度快 聚焦 极致 可信赖 原有开发体系的问题 1. 迭代周期漫长 2. 质量缺乏保障 2. 开发过程透明度无改善 3. 代码审核形同虚设 4. 部署过程依然没有完全自动化 简单 激情 速度快 聚焦 极致 可信赖 简单 激情 速度快 聚焦 极致 可信赖 持续…… 1.持续集成 Continuous Integration(CI) 2.持续发布 Continuous Delivery 3.持续部署 Continuous Deployment 简单 激情 速度快 聚焦0 码力 | 39 页 | 10.74 MB | 1 年前3
BRPC与UCX集成指南接口服务,例如上面的EchoService6 BRPC SERVER7 BRPC SERVER8 BRPC client9 BRPC EndPoint EndPoint是一个代表通讯地址的数据结构, 是一个C++类。 字段: ip,port ●在Socket创建时需要提供EndPoint ●Socket::Connect时需要Remote EndPoint ●Accept的Socket可以获得Remote ●Accept的Socket可以获得Remote EndPoint10 BRPC Socket对象 ●brpc最终的网络通讯都集中在socket对象里面 ●读socket通过EventDispatcher触发 ●上层发送网络数据通过写socket完成,不能立刻完成的,则去启动后台bthread去完成。11 BRPC SocketMap ●根据EndPoint作为一个map的Key,Value是Socket对象 ●So Channel远程调用的发起21 UCX ●NVIDIA Mellanox 开源项目 ●支持RDMA,TCP,Shared memory等 ●能透明支持多个链路传输,例如多网卡bond ●编译成.so或lib的方式,可以集成到应用程序里 ●有完善的配置功能,ucx_info可以dump配置信息 ●有性能测试工具 ●比较详细的文档2223 UCS ●是一些工具代码,例如 –链表 –hash table –epoll0 码力 | 66 页 | 16.29 MB | 6 月前3
MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖MATLAB与Spark/Hadoop相集成:实现大 数据的处理和价值挖 马文辉 2 内容 ▪ 大数据及其带来的挑战 ▪ MATLAB大数据处理 ➢ tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 ▪ 应用演示 – 汽车传感器数据分析 3 大数据概述 大数据的”4V”特征: 大数据的”4V”特征: ▪ Volumes - 数据规模,数据规模巨大 互联网、社交网络的普及,全社会的数字化转型,数据规模向PB级发展 ▪ Variety - 数据种类 ,数据种类繁多 结构化数据,半结构化数据,非结构化数据 ▪ Value - 数据价值,数据价值密度低 价值密度的高低与数据总量的大小成反比 ▪ Velocity - 数据处理速度,数据处理速度需要快速 数据处理速度是决定大数据应用的关键 数据处理速度是决定大数据应用的关键 4 大数据带来的挑战 ▪ 传统的工具和方法不能有效工作 – 访问和处理数据变得困难; – 需要学习使用新的工具和新的编程方式; – 不得不重写算法以应对数据规模的增大; ▪ 现有处理或计算方法下的结果质量受到影响 – 被迫只能处理一部分数据(数据子集); – 采用新的工具或重写算法会对现有生产力产生影响; ▪ 数据处理与分析所需时间增长 – 数据规模增大、数据复杂度增加,增加处理难度和所需时间;0 码力 | 17 页 | 1.64 MB | 1 年前3
阿里云容器服务大促备战全民双十一 基于容器服务的大促备战 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT我是谁挑战在哪里? 极限并发 人为失误 系统瓶颈 雪崩 单点失效 成本控制 用户体验 最终一致性 稳定性 资源不足 资源利用率 安全风险备战工具箱 服务化 开发运维一体化 弹性 极致性能 高可用 全站上云 安全加固 人工智能 大数据 离线计算 全链路压测0 码力 | 17 页 | 17.74 MB | 6 月前3
开源中国 2023 大模型(LLM)技术报告LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map 向量数据库 数据库向量支持 大模型框架、微调 (Fine Tuning) 大模型训练平台与工具 基础设施 LLM Agent 备案上线的中国大模型 知名大模型 知名大模型应用 大模型 算力 工具和平台 LLMOps 大模型聚合平台 开发工具 AI 编程 插件、IDE、终端 代码生成工具 编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能 力的提升,研究者们开始设计更大规模的神经网络,以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的 方法为语言任0 码力 | 32 页 | 13.09 MB | 1 年前3
AI大模型千问 qwen 中文文档information. 1.4.4 PPL 评测 llama.cpp 为我们提供了评估 GGUF 模型 PPL 性能的方法。为了实现这一点,你需要准备一个数据集,比如 “wiki 测试”。这里我们展示了一个运行测试的例子。 第一步,下载数据集: wget https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-raw-v1 install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调,并将其命名为 Qwen1.5-7B-finetuned ,且使用的是你 自己的数据集,比如 Alpaca。若要构建你自己的 AWQ 量化模型,你需要使用训练数据进行校准。以下,我 们将为你提供一个简单的演示示例以便运行: from awq import AutoAWQForCausalLM from transformers from_pretrained(model_path, device_map="auto",␣ �→safetensors=True) 接下来,您需要准备数据以进行校准。您需要做的就是将样本放入一个列表中,其中每个样本都是一段文 本。由于我们直接使用微调数据来进行校准,所以我们首先使用 ChatML 模板对其进行格式化。例如: data = [] for msg in messages: msg = c['messages']0 码力 | 56 页 | 835.78 KB | 1 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













