大数据处理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

阿里云容器服务大促备战

李斌阿里云容器服务全民双十一基于容器服务的大促备战关注“阿里巴巴云原生”公众号回复 1124 获取 PPT我是谁挑战在哪里？极限并发人为失误系统瓶颈雪崩单点失效成本控制用户体验最终一致性稳定性资源不足资源利用率安全风险备战工具箱服务化开发运维一体化弹性极致性能高可用全站上云安全加固人工智能大数据

0 码力 | 17 页 | 17.74 MB | 6 月前
3
开源中国 2023 大模型(LLM)技术报告

LLM 技术报告大语言模型（LLM）技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。以 GPT 系列为代表，LLM 以其在自然语言处理领域的卓越表现，成为推动语言理解、生成和应用的引擎。 LLM 2 / 32 LLM Tech Map  向量数据库  数据库向量支持  大模型框架、微调 (Fine Tuning)  大模型训练平台与工具基础设施 LLM Agent  备案上线的中国大模型  知名大模型  知名大模型应用大模型算力工具和平台  LLMOps  大模型聚合平台  开发工具 AI 编程  插件、IDE、终端  代码生成工具 32 LLM 基础设施 01 03 02 04 向量数据库/数据库向量支持为大模型提供高效的存储和检索能力大模型框架及微调 (Fine Tuning) 大模型框架提供基本能力和普适性，而微调则是实现特定应用和优化性能的关键环节大模型训练平台&工具提供了在不同硬件和环境中训练大语言模型所需的基础设施和支持编程语言以 Python 为代表 5 / 32 LLM

0 码力 | 32 页 | 13.09 MB | 1 年前
3
AI大模型千问 qwen 中文文档

AutoGPTQ，这意味着您能够直接在 Transformers 中使用量化后的模型。以下是一个非常简单的代码片段示例，展示如何运行 Qwen1.5-7B-Chat-GPTQ-Int8 （请注意，对于每种大小的 Qwen1.5 模型，我们都提供了 Int4 和 Int8 两种量化版本）： from transformers import AutoModelForCausalLM, AutoTokenizer chat_response) 1.10.4 多卡分布式部署要提高模型的处理吞吐量，分布式服务可以通过利用更多的 GPU 设备来帮助您。特别是对于像 Qwen1. 5-72B-Chat 这样的大模型，单个 GPU 无法支撑其在线服务。在这里，我们通过演示如何仅通过传入参数 tensor_parallel_size ，来使用张量并行来运行 Qwen1.5-72B-Chat 模型： from vllm OOM（内存溢出）问题。我们推荐您尝试两个参数进行修复。第一个参数是 --max-model-len 。我们提供的默认最大位置嵌入（max_position_embedding）为 32768，因此服务时的最大长度也是这个值，这会导致更高的内存需求。将此值适当减小通常有助于解决 OOM 问题。另一个您可以关注的参数是 --gpu-memory-utilization 。默认情况下，该值为 0.9 ，您可以将其调高以应对

0 码力 | 56 页 | 835.78 KB | 1 年前
3
陈宗志：大容量redis存储方案--Pika

大容量redis存储方案--Pika 陈宗志 360基础架构组技术经理 SACC2017 简介 • 13年入职360 基础架构组 – Bada – Pika – Zeppelin – Mario, Pink, slash, floyd • https://github.com/Qihoo360 SACC2017 概要 • 存在问题 • 分析问题 • 解决问题 • Pika vs redis SACC2017 • Pika 是DBA 和基础架构团队一起设计开发的大容量redis的解决方案 • 完全兼容redis 协议, 用户不需要修改任何代码进行迁移 Introduction SACC2017 • Redis实例数量：6000+个 • 日访问量：5000+亿 • Pika数据数量：1000+个 Pika 力求在完全兼容 Redis 协议、继承 Redis 便捷运维设计的前提下通过持久化存储的方式解决 Redis 在大容量场景下的问题 Pika 定位 SACC2017 Redis 问题 • 恢复时间长 • 一主多从, 主从切换代价大 • 缓冲区写满问题 • 成本问题 SACC2017 Redis 问题 • 恢复时间长

0 码力 | 47 页 | 2.18 MB | 1 年前
3
3 基于Azure的Python机器学习王大伟

基于Azure的Python机器学习平安金融壹账通大数据研究院微软MVP 王大伟目录 CONTENTS Azure与Python 如何用Azure完成机器学习 Azure与自动机器学习 Azure的相关学习资料 Azure与Python 日渐流行的Python TIOBE给出的排行榜是具有权威性质的，是判断语言流行趋势的指标。 TIOBE排行榜的网址是：https://tiobe

0 码力 | 31 页 | 3.69 MB | 1 年前
3
兼容龙蜥的云原生大模型数据计算系统：πDataCS

--πDataCS简介兼容龙蜥的云原生大模型数据计算系统拓数派产品市场总监吴疆吴疆深耕云计算和数据库行业十余年拓数派(Openpie)产品市场总监毕业于清华大学计算机系，先后在IBM，EMC， Pivotal，VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介海外研发拓数派旗下大模型数据计算系统（PieDataComputing System，缩写πDataCS），以云原生技术重构数据存储和计算，一份存储，多引擎数据计算，全面升级大数据系统至大模型时代，使得自主可控的大模型数据计算系统保持全球领先，成为AI的基础科技底座的同时，开启AI技术的新范式。 πDataCS旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势，构建核心技术壁垒，让大模型技与东吴证券在数仓虚拟化和信创领域展开试点合作 12月创始人冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 4月冯雷被评为杭州市所有的独角兽和准独角兽企业中唯一“年度创业人物” 打造大模型时代立身中国的世界级团队首家以虚拟数仓通过信通院/可信AP数据库评测 7月拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月拓数派入选中国信通院“铸基计划”「高质量数字

0 码力 | 29 页 | 7.46 MB | 1 年前
3
大模型时代下向量数据库的设计与应用

大模型时代下向量数据库的设计与应用个人简介目前在拓数派负责向量数据库PieCloudVector产品，聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验，在加入拓数派前曾就职于开源大数据平台Greenplum团队，担任外部数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心开发和性能优化等实践经验。邱培峰拓数派向量数据库负责人拓数派：大模型数据计算系统先行者 • 拓数派（ OpenPie）是立足于国内的基础数据计算领域高科技创新机构； • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团队； • 国内虚拟数仓和eMPP技术提出者，不断在数据计算引擎方向进行创新，全面拥抱AI技术趋势。目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • • PieCloudVector架构设计与挑战 • 案例介绍大模型检索增强生成(RAG) 使用大模型可以构造问答，聊天等应用，但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期，不包含最新信息，无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道，无法接触到私域数据，对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力，对长时间交互的上下文

0 码力 | 28 页 | 1.69 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 4 1.词汇表征和文本数据处理 5 1.词汇表征和文本数据处理 6 1.词汇表征和文本数据处理 7 1.词汇表征和文本数据处理 8 2.词嵌入词嵌入 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 9 2.词嵌入 “Sally Johnson is an orange farmer.” “Robert Lin is an apple farmer.” 10 2.词嵌入如何用词嵌入做迁移学习的步骤。第一步，先从大量的文本集中学习词嵌入。 13 2.词嵌入嵌入矩阵 14 3.Word2Vec 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据（例如，所有维基百科文章）。然后 2.我们有一个窗口（比如说三个单词），我们会对所有文本进行滑动。

0 码力 | 44 页 | 2.36 MB | 1 年前
3
大数据时代的Intel之Hadoop

2011年6月乊前， Facebook平台每天分享资料： 40亿智慧城市数据中国某一线城市: 200PB/季度中国一线城市健康档案数据： 5.5 million 传统的数据处理技术大数据时代的数据速度数据量多样化传统数据大数据 GB -> TB TB -> PB以上数据量稳定，增长不快持续实时产生数据，年增长率超过60％推迚终端设备和传感器的智能化，构建亏联、可管理的和安全的分布式架构软硬结合 Intel Hadoop商业发行版优化的大数据处理软件栈稳定的企业级hadoop发行版利用硬件新技术迚行优化 HBase改迚和创新，为Hadoop提供实时数据处理能力针对行业的功能增强，应对丌同行业的大数据挑戓 Hive 0.9.0 交互式数据仓库 Sqoop 1.4.1 关系数据ETL工具尽量避免：比方说增加compaction thread数，防止阻塞写入 • 过多的split • 预分配region 大对象的高效存储（IDH2.3）在交通、金融等领域，要求存储大量的图片 • 将图片存入HBase，引起大量的compaction • 将图片存入HDFS，管理使用麻烦 IDH引入了表外存储以解决大对象的高效存储问题 • 类似Oracle的BLOB存储 • 对用户透明 • 2X以上的写入性能，还有迚一步提升的空间

0 码力 | 36 页 | 2.50 MB | 1 年前
3
网易数帆领先的数字化转型技术与服务提供商 2021

企业服务品牌，定位于领先的数字化转型技术与服务提供商，为客户提供创新、可靠的国产软件基础平台产品及相应技术服务，业务覆盖云原生基础软件、数据智能全链路产品、人工智能算法应用三大领域，旗下拥有轻舟、有数、易智三大产品线，致力于帮助客户搭建无绑定、高兼容、自主可控的创新基础平台架构，快速应对新一代信息技术下实现数字化转型的需求。网易数帆依托网易二十余年互联网技术积累，系列软件基础平台产品和技《Gartner 2020 中国 ICT 技术成熟度曲线》数据中台领域标杆厂商信通院“大数据'星河'案例-行业大数据应用优秀案例” 信通院 OSCAR 尖峰开源创新（二次开发）奖云计算开源产业联盟云原生十大优秀案例 infoQ 中国技术力量年度榜单 InfoQ2020 最有价值技术团队 InfoQ2020 最佳技术社区驱动力奖思否 SegmentFault 中国技术品牌影响力企业 DTCC 第十一届中国数据库技术大会创新产品奖注册发现服务治理服务路由流量染色服务化将企业能力转化为数字化的服务，打破企业软件应用中数据孤岛等现状。敏捷通过小步快跑的方式敏捷迭代，不断适应市场与业务需求的变化，摆脱缓慢的大版本更新与业务需求脱节的窘境。高效通过自动化与生产协作方式的优化，多环节提升软件生产的效率。开放基于开放的技术体系，打造开放的软件架构。轻舟云原生软件生产力平台 2.0 能力全景图

0 码力 | 43 页 | 884.64 KB | 1 年前
3

共 910 条前往

页

分类

语言

格式

阿里云容器服务大促备战

开源中国 2023 大模型(LLM)技术报告

AI大模型千问 qwen 中文文档

陈宗志：大容量redis存储方案--Pika

3 基于Azure的Python机器学习王大伟

兼容龙蜥的云原生大模型数据计算系统：πDataCS

大模型时代下向量数据库的设计与应用

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

大数据时代的Intel之Hadoop

网易数帆领先的数字化转型技术与服务提供商 2021