 开源中国 2023 大模型(LLM)技术报告LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM LLM 在多个领域都取得了令人瞩目的成就。在自然语言处 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Tech Map  向量数据库  数据库向量支持  大模型框架、微调 (Fine Tuning)  大模型训练平台与工具 基础设施 LLM Agent  备案上线的中国大模型  知名大模型  知名大模型应用 大模型 算力 工具和平台  LLMOps  大模型聚合平台  开发工具 AI 编程  插件、IDE、终端  代码生成工具 编程语言 3 / 320 码力 | 32 页 | 13.09 MB | 1 年前3 开源中国 2023 大模型(LLM)技术报告LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM LLM 在多个领域都取得了令人瞩目的成就。在自然语言处 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Tech Map  向量数据库  数据库向量支持  大模型框架、微调 (Fine Tuning)  大模型训练平台与工具 基础设施 LLM Agent  备案上线的中国大模型  知名大模型  知名大模型应用 大模型 算力 工具和平台  LLMOps  大模型聚合平台  开发工具 AI 编程  插件、IDE、终端  代码生成工具 编程语言 3 / 320 码力 | 32 页 | 13.09 MB | 1 年前3
 领域驱动设计&中台/架构分层模型适配架构分层模型适配 吴雪峰@201811 — 有效防⽌止架构腐化实践 CONTENTS 01 DDD分层参考架构 02 严纪律律 防腐化 — 分层模型适配 03 分层模型适配实例例 DDD分层参考架构 DDD分层参考架构 给⽤用户提供界⾯面,关注⽤用户交互和体验 前端应⽤用 API服务 业务领域 基础设施 为前端应⽤用提供API服务,关注事务和分布式等技术性问题 领域模型和领域逻辑,关注业务概念。 ⼤大量量业务逻辑堆积 模型: • View Object • Resource Model DDD分层参考架构 领域模型和领域逻辑,关注业务概念。 前端应⽤用 API服务 领域模型 基础设施 ⼲干系⼈人: 业务领域专家,业务领导 诉求: 表现业务概念和实现业务价值 要点: 业务建模和复杂性管理理 ⼯工作内容: • 建⽴立业务模型,并体现在代码上 • 管理理模型复杂度,适度拆分模块 ⼤大量量技术术语业务⼈人员完全看不不懂 模型: • 应⽤用服务 — 跨Bond Context DTO • 领域服务 — 跨聚合 • 聚合 实体 仓库 事件 DDD分层参考架构 访问外界系统(调⽤用外界系统)的技术相关实现。 前端应⽤用 API服务 业务领域 基础设施 ⼲干系⼈人: 外界系统 诉求: 稳定调⽤用外部系统 技术点: 使⽤用和适配外部系统模型,隔离和快速诊断错误 ⼯工作内容:0 码力 | 39 页 | 2.54 MB | 1 年前3 领域驱动设计&中台/架构分层模型适配架构分层模型适配 吴雪峰@201811 — 有效防⽌止架构腐化实践 CONTENTS 01 DDD分层参考架构 02 严纪律律 防腐化 — 分层模型适配 03 分层模型适配实例例 DDD分层参考架构 DDD分层参考架构 给⽤用户提供界⾯面,关注⽤用户交互和体验 前端应⽤用 API服务 业务领域 基础设施 为前端应⽤用提供API服务,关注事务和分布式等技术性问题 领域模型和领域逻辑,关注业务概念。 ⼤大量量业务逻辑堆积 模型: • View Object • Resource Model DDD分层参考架构 领域模型和领域逻辑,关注业务概念。 前端应⽤用 API服务 领域模型 基础设施 ⼲干系⼈人: 业务领域专家,业务领导 诉求: 表现业务概念和实现业务价值 要点: 业务建模和复杂性管理理 ⼯工作内容: • 建⽴立业务模型,并体现在代码上 • 管理理模型复杂度,适度拆分模块 ⼤大量量技术术语业务⼈人员完全看不不懂 模型: • 应⽤用服务 — 跨Bond Context DTO • 领域服务 — 跨聚合 • 聚合 实体 仓库 事件 DDD分层参考架构 访问外界系统(调⽤用外界系统)的技术相关实现。 前端应⽤用 API服务 业务领域 基础设施 ⼲干系⼈人: 外界系统 诉求: 稳定调⽤用外部系统 技术点: 使⽤用和适配外部系统模型,隔离和快速诊断错误 ⼯工作内容:0 码力 | 39 页 | 2.54 MB | 1 年前3
 AI大模型千问 qwen 中文文档AI agent, etc. 最新版本 Qwen1.5 有以下特点: • 6 种模型规模,包括 0.5B、1.8B、4B、7B、14B 和 72B; • 针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言; • 支持工具调用、RAG(检索增强文本生成)、角色扮演、AI Agent 快速开始 CHAPTER1 文档 1.1 安装 要快速上手 Qwen1.5,您可以从 Hugging Face 安装 transformers 库,并使用 Qwen1.5 Collection 中的模型。 我们建议您安装最新版本的 transformers 库,或者至少安装 4.37.0 版本。 1.1.1 Pip 安装 pip install transformers -U 1.1.2 Conda 5,我们建议您首先尝试使用 transformers 进行推理。请确保已安装了 transformers>=4. 37.0 版本。以下是一个非常简单的代码片段示例,展示如何运行 Qwen1.5-Chat 模型,其中包含 Qwen1. 5-7B-Chat 的实例: from transformers import AutoModelForCausalLM, AutoTokenizer device = "cuda"0 码力 | 56 页 | 835.78 KB | 1 年前3 AI大模型千问 qwen 中文文档AI agent, etc. 最新版本 Qwen1.5 有以下特点: • 6 种模型规模,包括 0.5B、1.8B、4B、7B、14B 和 72B; • 针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言; • 支持工具调用、RAG(检索增强文本生成)、角色扮演、AI Agent 快速开始 CHAPTER1 文档 1.1 安装 要快速上手 Qwen1.5,您可以从 Hugging Face 安装 transformers 库,并使用 Qwen1.5 Collection 中的模型。 我们建议您安装最新版本的 transformers 库,或者至少安装 4.37.0 版本。 1.1.1 Pip 安装 pip install transformers -U 1.1.2 Conda 5,我们建议您首先尝试使用 transformers 进行推理。请确保已安装了 transformers>=4. 37.0 版本。以下是一个非常简单的代码片段示例,展示如何运行 Qwen1.5-Chat 模型,其中包含 Qwen1. 5-7B-Chat 的实例: from transformers import AutoModelForCausalLM, AutoTokenizer device = "cuda"0 码力 | 56 页 | 835.78 KB | 1 年前3
 超大规模深度学习在美团的应用-余建平超大规模深度学习在美团的应用 余建平 美团点评用户平台研究员 自我介绍 自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习 工程相关的工作,加入美团后,负责超大规模机器学习系统,从无到有搭建起支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型 超大规模模型的有效性 • VC维理论  描述模型的学习能力:VC维越大模型越复杂,学习能力越强  机器学习能力0 码力 | 41 页 | 5.96 MB | 1 年前3 超大规模深度学习在美团的应用-余建平超大规模深度学习在美团的应用 余建平 美团点评用户平台研究员 自我介绍 自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习 工程相关的工作,加入美团后,负责超大规模机器学习系统,从无到有搭建起支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型 美团超大规模模型应用场景 美团推荐 美团搜索 美团广告 美团应用场景简介 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型 超大规模模型的有效性 • VC维理论  描述模型的学习能力:VC维越大模型越复杂,学习能力越强  机器学习能力0 码力 | 41 页 | 5.96 MB | 1 年前3
 蚂蚁金服双十一 Service Mesh 超大规模落地揭秘蚂蚁金服双十一 Service Mesh 超大规模落地揭秘 黄挺(鲁直) 蚂蚁金服微服务以及云原生负责人 雷志远(碧远) 蚂蚁金服中间件 RPC 负责人2 个⼈人简介 雷志远(碧远) 蚂蚁金服 RPC 负责人 主要 Focus 领域: * 服务框架:SOFARPC(已开源) * Service Mesh:MOSN(已开源) 黄挺(鲁直) 蚂蚁金服云原生负责人 主要0 码力 | 26 页 | 2.71 MB | 6 月前3 蚂蚁金服双十一 Service Mesh 超大规模落地揭秘蚂蚁金服双十一 Service Mesh 超大规模落地揭秘 黄挺(鲁直) 蚂蚁金服微服务以及云原生负责人 雷志远(碧远) 蚂蚁金服中间件 RPC 负责人2 个⼈人简介 雷志远(碧远) 蚂蚁金服 RPC 负责人 主要 Focus 领域: * 服务框架:SOFARPC(已开源) * Service Mesh:MOSN(已开源) 黄挺(鲁直) 蚂蚁金服云原生负责人 主要0 码力 | 26 页 | 2.71 MB | 6 月前3
 机器学习课程-温州大学-11深度学习-序列模型2023年05月 深度学习-序列模型 黄海广 副教授 2 03 长短期记忆(LSTM) 04 双向循环神经网络 本章目录 01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 3 03 长短期记忆(LSTM) 04 双向循环神经网络 1.序列模型概述 01 序列模型概述 02 循环神经网络(RNN) 循环神经网络(RNN) 05 深层循环神经网络 4 1.序列模型概述 循环神经网络(RNN)之类的模型在语音识别、自然语言处理和 其他领域中引起变革。 5 数学符号 在这里?<1>表示Harry这个单词,它就是一个第 4075行是1,其余值都是0的向量(上图编号1所示 ),因为那是Harry在这个词典里的位置。 ?<2>是第6830行是1,其余位置都是0的向量(上 图编号2所示)。 同一层节点之间无关联,从而导致获取时序规则方面功 能不足  循环神经网络可以解决时序问题  基于语言模型(LM),故可以捕捉时序规则信息  它是如何实现的? 7 03 长短期记忆(LSTM) 04 双向循环神经网络 2.循环神经网络(RNN) 01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 8 2.循环神经网络(RNN)0 码力 | 29 页 | 1.68 MB | 1 年前3 机器学习课程-温州大学-11深度学习-序列模型2023年05月 深度学习-序列模型 黄海广 副教授 2 03 长短期记忆(LSTM) 04 双向循环神经网络 本章目录 01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 3 03 长短期记忆(LSTM) 04 双向循环神经网络 1.序列模型概述 01 序列模型概述 02 循环神经网络(RNN) 循环神经网络(RNN) 05 深层循环神经网络 4 1.序列模型概述 循环神经网络(RNN)之类的模型在语音识别、自然语言处理和 其他领域中引起变革。 5 数学符号 在这里?<1>表示Harry这个单词,它就是一个第 4075行是1,其余值都是0的向量(上图编号1所示 ),因为那是Harry在这个词典里的位置。 ?<2>是第6830行是1,其余位置都是0的向量(上 图编号2所示)。 同一层节点之间无关联,从而导致获取时序规则方面功 能不足  循环神经网络可以解决时序问题  基于语言模型(LM),故可以捕捉时序规则信息  它是如何实现的? 7 03 长短期记忆(LSTM) 04 双向循环神经网络 2.循环神经网络(RNN) 01 序列模型概述 02 循环神经网络(RNN) 05 深层循环神经网络 8 2.循环神经网络(RNN)0 码力 | 29 页 | 1.68 MB | 1 年前3
 阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践周 涛 (广侯) 阿里巴巴 云原生应用平台 技术专家 阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •嵌入式、微服务框架 •2017 年加入阿里巴巴,负责阿 里集团数十万集群节点规模化运 维管理系统的研发工作 •2019 年参与集团全面上云项目 并经历了整体架构的云原生升级 演进,稳定支撑双11峰值流量分享内容0 码力 | 21 页 | 7.81 MB | 6 月前3 阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践周 涛 (广侯) 阿里巴巴 云原生应用平台 技术专家 阿里巴巴超大规模神龙裸金属 Kubernetes 集群运维实践 关注“阿里巴巴云原生”公众号 回复 1124 获取 PPT自我介绍 •嵌入式、微服务框架 •2017 年加入阿里巴巴,负责阿 里集团数十万集群节点规模化运 维管理系统的研发工作 •2019 年参与集团全面上云项目 并经历了整体架构的云原生升级 演进,稳定支撑双11峰值流量分享内容0 码力 | 21 页 | 7.81 MB | 6 月前3
 超大规模高可用性云端系统构建之禅-蔡超0 码力 | 40 页 | 6.52 MB | 1 年前3 超大规模高可用性云端系统构建之禅-蔡超0 码力 | 40 页 | 6.52 MB | 1 年前3
 Java 应用与开发 - Java 内存模型与分配机制大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 Java 应用与开发 Java 内存模型与分配机制 王晓东 wangxiaodong@ouc.edu.cn 中国海洋大学 September 30, 2018 大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 学习目标 1. 理解 JVM 内存模型,掌握 JVM 内存构成 2 建立编程时高效利用内存、避免内存溢出的理念 大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 ���� Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 大纲 Java 内存模型 Java 程序内存运行分析 Java Java栈 程序计数器 本地方法栈 执行引擎 本地接口 通过全限定名装载 操作系统 操作系统本地库 运行时数据区 大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 JVM 内存模型 动画演示 JVM 内存模型 JVM内存模型 Heap Method Area Runtime Constant Pool Thread Thread Thread PC Register0 码力 | 44 页 | 818.30 KB | 1 年前3 Java 应用与开发 - Java 内存模型与分配机制大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 Java 应用与开发 Java 内存模型与分配机制 王晓东 wangxiaodong@ouc.edu.cn 中国海洋大学 September 30, 2018 大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 学习目标 1. 理解 JVM 内存模型,掌握 JVM 内存构成 2 建立编程时高效利用内存、避免内存溢出的理念 大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 ���� Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 大纲 Java 内存模型 Java 程序内存运行分析 Java Java栈 程序计数器 本地方法栈 执行引擎 本地接口 通过全限定名装载 操作系统 操作系统本地库 运行时数据区 大纲 Java 内存模型 Java 程序内存运行分析 Java 内存管理建议 JVM 内存模型 动画演示 JVM 内存模型 JVM内存模型 Heap Method Area Runtime Constant Pool Thread Thread Thread PC Register0 码力 | 44 页 | 818.30 KB | 1 年前3
 李东亮:云端图像技术的深度学习模型与应用云端图像技术的深度学习模型与应用 李东亮 360 人工智能研究院 lidongliang@360.cn 2017.10.20 SACC2017 360电脑安全产品 月活跃数达到4.42亿 360手机安全产品 移动端用户总数已达约1.49亿 360浏览器 月活跃用户数量为3.03亿 360导航 日均独立访问用户为8900万人 日均点击量约为4.51亿次 360搜索 稳定拥有35%以上的市场份额 移动端 业 务 视觉感知模型 SACC2017 视觉感知核心问题 Object Segmentation Object Classification Person, Horse, Barrier, Table, etc Object Detection 检测 识别 分割 跟踪 核 心 SACC2017 图像技术的三个核心难点>>小、快、准 小模型 线上速度快 预测准 Frequent remote upgrade CPU-constrained, real-time Cloud processing SACC2017 视觉感知模型 分割 Forward Block Forward Block deconvolution deconvolution convolution convolution 检测 Forward Block Forward0 码力 | 26 页 | 3.69 MB | 1 年前3 李东亮:云端图像技术的深度学习模型与应用云端图像技术的深度学习模型与应用 李东亮 360 人工智能研究院 lidongliang@360.cn 2017.10.20 SACC2017 360电脑安全产品 月活跃数达到4.42亿 360手机安全产品 移动端用户总数已达约1.49亿 360浏览器 月活跃用户数量为3.03亿 360导航 日均独立访问用户为8900万人 日均点击量约为4.51亿次 360搜索 稳定拥有35%以上的市场份额 移动端 业 务 视觉感知模型 SACC2017 视觉感知核心问题 Object Segmentation Object Classification Person, Horse, Barrier, Table, etc Object Detection 检测 识别 分割 跟踪 核 心 SACC2017 图像技术的三个核心难点>>小、快、准 小模型 线上速度快 预测准 Frequent remote upgrade CPU-constrained, real-time Cloud processing SACC2017 视觉感知模型 分割 Forward Block Forward Block deconvolution deconvolution convolution convolution 检测 Forward Block Forward0 码力 | 26 页 | 3.69 MB | 1 年前3
共 729 条
- 1
- 2
- 3
- 4
- 5
- 6
- 73













