大数据 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

阿里云容器服务大促备战

全民双十一基于容器服务的大促备战关注“阿里巴巴云原生”公众号回复 1124 获取 PPT我是谁挑战在哪里？极限并发人为失误系统瓶颈雪崩单点失效成本控制用户体验最终一致性稳定性资源不足资源利用率安全风险备战工具箱服务化开发运维一体化弹性极致性能高可用全站上云安全加固人工智能大数据离线计算全链路压测

0 码力 | 17 页 | 17.74 MB | 6 月前
3
AI大模型千问 qwen 中文文档

information. 1.4.4 PPL 评测 llama.cpp 为我们提供了评估 GGUF 模型 PPL 性能的方法。为了实现这一点，你需要准备一个数据集，比如 “wiki 测试”。这里我们展示了一个运行测试的例子。第一步，下载数据集： wget https://s3.amazonaws.com/research.metamind.io/wikitext/wikitext-2-raw-v1 install -e . 假设你已经基于 Qwen1.5-7B 模型进行了微调，并将其命名为 Qwen1.5-7B-finetuned ，且使用的是你自己的数据集，比如 Alpaca。若要构建你自己的 AWQ 量化模型，你需要使用训练数据进行校准。以下，我们将为你提供一个简单的演示示例以便运行： from awq import AutoAWQForCausalLM from transformers from_pretrained(model_path, device_map="auto",␣ �→safetensors=True) 接下来，您需要准备数据以进行校准。您需要做的就是将样本放入一个列表中，其中每个样本都是一段文本。由于我们直接使用微调数据来进行校准，所以我们首先使用 ChatML 模板对其进行格式化。例如： data = [] for msg in messages: msg = c['messages']

0 码力 | 56 页 | 835.78 KB | 1 年前
3
Flink如何实时分析Iceberg数据湖的CDC数据

Flink如何实时分析Iceberg数据湖的CDC数据阿里巴巴李/松/胡争 23选择 Flink Ic+b+1g #2 常DCCDC 分析方案 #1 如3实时写 4F取 ## 未来规划 #4 #见的CDC分析方案 #1 离线 HBase 集u分析 CDC 数a 、CDC记录实时写入HBase。高吞P + 低延迟。 2、小vSg询延迟低。 3、集u可拓展 ci评C 4、数a格式q定HF23e，不cF拓展到 +arquet、Avro、Orcn。 t点 A3a/21 Kudu 维护 CDC 数据p 、支持L时更新数据，时效性佳。 2、CK加速，适合OLAP分析。方案评估优点、cedKudup群，a较小众。维护 O本q。 2、H HDFS / S3 / OSS 等D裂。数据c e，且KAO本不如S3 / OSS。 3、Kudud批量P描不如3ar4u1t。 4、不支持增量SF。 4、不支持增量SF。 h点直接D入CDC到Hi2+分析、流程能E作 2、Hi2+存量数据不受增量数据H响。方案评估优点、数据不是CR写入； 2、每次数据D致都要 MERGE 存量数据。T+ 方GT新3R效性差。 3、不M持CR1ps+rt。缺点 SCaDk + )=AFa IL()(数据 MER,E .NTO GE=DE US.N, chan>=E ON GE=DE.GE=D

0 码力 | 36 页 | 781.69 KB | 1 年前
3
大数据集成与Hadoop - IBM

年 9 月大数据集成与 Hadoop 可最大限度降低Hadoop计划风险并提高ROI的最佳实践 2 大数据集成与 Hadoop 简介 Apache Hadoop技术通过支持新的流程和架构，不断改进大数据措施的经济性和活力，这样不仅有助于削减成本、增加收益，而且还能树立竞争优势。Hadoop是一个开源软件项目，支持在多个商业服务器群集间分散处理和存储大型数据集，并可根据 MapReduce）。但是，Hadoop基础架构本身并没有提供完整的大数据集成解决方案，摆在人们面前的既有挑战，也有机遇，只有处理好这些问题，才能安享各项优势，最大限度提高投资回报率 (ROI)。大数据集成对于Hadoop措施的重要性 Hadoop的迅速崛起推动企业在如何抽取、管理、转换、存储和分析大数据方面实现了范式转变。无论是要更深入的分析，还是希望获得更出色的洞察、新产品、新服务以及更高的服务水平，都依靠收集、移动、转换、清除、集成、治理、探索以及分析多种不同来源的大量不同类型的数据来实现大数据与Hadoop项目。实现所有这些目标需要运用富有弹性的端到端信息集成解决方案，该解决方案不仅可实现大规模扩展，还能提供支持 Hadoop项目所需的基础架构、功能、流程和行为准则。 “在很大程度上，80%的大数据项目开发精力用于数据集成，只有20%的精力投入到数据分析中。” —Intel Corporation，“使用

0 码力 | 16 页 | 1.23 MB | 1 年前
3
通过Oracle 并行处理集成 Hadoop 数据

并行处理集成 Hadoop 数据 1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据引言许多垂直行业都在关注文件系统中庞大的数据。这些数据中通常包含大量无关的明明细信息，以及部分可用于趋势分析或丰富其他数据的精华信息。尽管这些数据存储在数据库之外，但一些客户仍然希望将其与数据库中的数据整合在一起以提取对业务用户有价值的信息。本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注意，本文选择了 Hadoop 和 HDFS 作为示例，但这里的策略同样适用于其他分布式存储机制。本文中介绍了各种访问方法，还通过一个具体示例说明了其中一通过 Oracle 并行处理集成 Hadoop 数据外部 Hadoop 数据的访问方法要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据，最简单的方法莫过于使用外部表。请参阅这里了解外部表。外部表以表的形式展示存储在文件系统中的数据，并且可在 SQL 查询中完全透明地使用。因此，可以考虑用外部表从

0 码力 | 21 页 | 1.03 MB | 1 年前
3
大数据时代的Intel之Hadoop

大数据时代的Intel乊Hadoop 系统方案架构师：朱海峰英特尔®中国于计算创新中心 2013.4 北京法律声明本文所提供乊信息均不英特尔® 产品相关。本文丌代表英特尔公司戒其它机构向仸何人明确戒隐含地授予仸何知识产权。除相关产品的英特尔销售条款不条件中列明乊担保条件以外，英特尔公司丌对销售和/戒使用英特尔产品做出其它仸何明确戒隐含的担保，包括对适用亍特定用途、适销可随时更改，恕丌另行通知。版权所有 © 2012 英特尔公司。所有权保留。提纲 • 大数据时代的新挑戓 • 大数据时代的Intel • 关注产业应用，产研相亏促迚从文明诞生到2003年，人类文明产生了 5EB的数据；而今天，我们每两天产生5EB的数据。 Eric Schmidt 0 20,000 40,000 60,000 80,000 2007 2008 2009 2010 2011 2012 2013 2014 2015 Exponential Growth 内容仓库– 海量/非结构化传统非结构化数据传统结构化数据企业托管服务中的数据 Linear Growth Source: IDC, 2011 Worldwide Enterprise Storage Systems 2011–2015 Forecast

0 码力 | 36 页 | 2.50 MB | 1 年前
3
TensorFlow on Yarn：深度学习遇上大数据

深度学习 + 大数据 TensorFlow on Yarn 李远策 2017年4月17日内容大纲 Ø TensorFlow使用现状及痛点� Ø TensorFlow on Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景坐标：360-系统部-⼤数据团队� 专业：Yarn、Spark、MR、HDFS 专业：Yarn、Spark、MR、HDFS …� 挑战：深度学习空前⽕爆，各种深度学习框架层出不穷，业务部门拥抱新兴技术。平台怎么应对？� 机遇：Maybe 深度学习 + ⼤数据 � � TensorFlow使用现状及痛点场景（1）� 场景（2）� TensorFlow使用现状及痛点 !.train.ClusterSpec({ “worker”: [ “worker0.example ⼿动拉取训练模型� TensorFlow使用现状及痛点 • 多⼈多服务器使用混乱，计算资源如何划分？� • 没有GPUs集群资源管理和调度（内存、CPU、GPU、端⼝），集群资源负载不均� • 训练数据⼿动分发，训练模型⼿动保存� • 进程遗留问题，需要⼿动杀死� • 缺乏作业统⼀管理，不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结：� TensorFlow使用现状及痛点 •

0 码力 | 32 页 | 4.06 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

尚硅谷大数据技术之 Hadoop（入门） ————————————————————————————— 更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网尚硅谷大数据技术之 Hadoop（入门）（作者：尚硅谷大数据研发部）版本：V3.3 第 1 章 Hadoop 概述 1.1 Hadoop 是什么 Hadoop是什么 Hadoop是什么 1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2）主要解决，海量数据的存储和海量数据的分析计算问题。 3）广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈。 1.2 Hadoop 发展历史（了解） Hadoop发展历史 1）Hadoop创始人Doug Cutting，为了实现与Google类似的全文搜索功能，他在Lucene框架基础上进行优 2）2001年年底Lucene成为Apache基金会的一个子项目。 3）对于海量数据的场景，Lucene框架面对与Google同样的困难，存储海量数据困难，检索海量速度慢。 4）学习和模仿Google解决这些问题的办法：微型版Nutch。 5）可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文） GFS --->HDFS Map-Reduce --->MR

0 码力 | 35 页 | 1.70 MB | 1 年前
3
蚂蚁金服ServiceMesh数据平面 SOFAMosn深层揭秘

蚂蚁金服ServiceMesh数据平面 SOFAMosn深层揭秘奕杉Agenda Ø背景 Ø构架 Ø能力 Ø性能 ØRoadMap背景为什么蚂蚁需要ServiceMesh Ø拥抱微服务，云原生 • SOFA 5规划落地 • 兼容K8S的智能调度体系 Ø运维体系的有力支撑 • LDC • 弹性伸缩 • 蓝绿/容灾/.. Ø金融级网络安全 • 金融级鉴权体系 • 云原生zero trust网络安全趋势 2SOFAMosn内数据流 3NET/IO 4 Ø屏蔽IO处理细节 Ø定义网络链接生命周期，事件机制 Ø定义可编程的网络模型，核心方法，监控指标 Ø定义可扩展的插件机制PROTOCOL 5 Ø定义编解码核心数据结构 üMesh处理三段式：Headers + Data + Trailers Ø定义协议Codec核心接口 ü编码：对请求数据进行编码并根据控制指令发送数据 ü解码：对IO数据进行解码并通过扩展机制通知订阅方为网络协议请求/响应提供可编程的抽象载体 ü 考虑PING-PONG，PIPELINE，分帧STREAM三种典型流程特征 Ø定义Stream生命周期，核心事件 Ø定义Stream层编/解码核心接口 ü 核心数据结构复用Protocol层 Ø定义可扩展的插件机制 Ø对于满足请求Stream池化的需求 Ø需处理上层传入的状态事件PROXY 7 Ø基于Stream抽象提供多协议转发能力 Ø执行Stream扩展Filters

0 码力 | 44 页 | 4.51 MB | 6 月前
3
全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdash

Kubernetes 运行大数据工作负载的探索和实践 Leibo Wang(wang.platform@Hotmail.com) Huawei CloudBU Principal Engineer 王雷博 Principal Software Engineer • Huawei(Now) - Cloud Native batch system (Volcano) development

0 码力 | 25 页 | 3.84 MB | 1 年前
3

共 324 条前往

页

分类

语言

格式

阿里云容器服务大促备战

AI大模型千问 qwen 中文文档

Flink如何实时分析Iceberg数据湖的CDC数据

大数据集成与Hadoop - IBM

通过Oracle 并行处理集成 Hadoop 数据

大数据时代的Intel之Hadoop

TensorFlow on Yarn：深度学习遇上大数据

尚硅谷大数据技术之Hadoop（入门）

蚂蚁金服ServiceMesh数据平面 SOFAMosn深层揭秘

全球架构师峰会2019北京/大数据/Kubernetes 运行大数据工作负载的探索和实践&mdash