开源中国 2023 大模型(LLM)技术报告LLM 技术报告 大语言模型(LLM) 技术作为人工智能领域的一项重要创 新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统,专门 设计来理解、生成和回应自然语言。这些模型通过分析大量 的文本数据来学习语言的结构和用法,从而能够执行各种语 言相关任务。以 GPT 系列为代表,LLM 以其在自然语言 处理领域的卓越表现,成为推动语言理解、生成和应用的引 擎。 LLM 理领域,GPT 系列模型在文本生成、问答系统和对话生成 等任务中展现出色的性能。在知识图谱构建、智能助手开发 等方面,LLM 技术也发挥了关键作用。此外,它还在代码 生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map 向量数据库 数据库向量支持 代码生成工具 编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能 力的提升,研究者们开始设计更大规模的神经网络,以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的 方法为语言任务提供0 码力 | 32 页 | 13.09 MB | 1 年前3
网易数帆 领先的数字化转型技术与服务提供商 2021领先的数字化转型技术与服务提供商 网易数帆是网易集团旗下 TO B 企业服务品牌,定位于领先的数字化转型 技术与服务提供商,为客户提供创新、可靠的国产软件基础平台产品及相 应技术服务,业务覆盖云原生基础软件、数据智能全链路产品、人工智能 算法应用三大领域,旗下拥有轻舟、有数、易智三大产品线,致力于帮助 客户搭建无绑定、高兼容、自主可控的创新基础平台架构,快速应对新一 代信息技术下实现数字化转型的需求。 代信息技术下实现数字化转型的需求。 网易数帆依托网易二十余年互联网技术积累,系列软件基础平台产品和技 术方案,成熟应用于金融、零售、制造、能源、电信、物流等多个行业领 域,在技术先进性、性能优越性、产品成熟度及安全可靠性等方面得到了 各行业客户的验证。目前已服务各领域头部客户百余家,包括工商银行、 浙商银行、银监会、人保金服、深圳证券交易所、华泰证券、名创优品、 古茗、百胜集团、温氏集团、万向集团、大华股份、宁波钢铁、一汽解放、 以“开放、开源、跨云”为技术理念,网易数帆大力推动技术研究,先后取 得“工信部云计算服务能力标准首批试点单位”、“国家企业技术中心”、“信 通院云计算标准和开源推进委员会成员”、“信通院大数据技术标准推进委 员会成员”、“信创工委会成员”等机构资质。同时,网易数帆积极推动跨厂 商的数字化技术融合发展,与AWS、阿里云、百度云、华为鲲鹏云计算、 浪潮、新华三等多家企业完成技术兼容性认证。 数帆使命:帮助所有客户成功实现数字化转型0 码力 | 43 页 | 884.64 KB | 1 年前3
2023 中国开源开发者报告的广泛应用奠定了基础。再之后的 11 月份,OpenAI 再发力,GPTs 的到来,“用户自定义 ChatGPT”的能力,更是让世人领略了 OpenAI 作为 LLM 一哥的宏大叙事能力与强劲技术实力。 二、 New Bing(Bing AI)代表了微软在 LLM 领域的野心和 决心,它首次把当时世人能想到最有价值又可行的 LLM 应用场景——“智能对话+联网搜索”——无缝整合了起来, LangChain 的出现,实现了 LLM 之间的链式交互,使多 个 LLM 模型串联工作,发挥各自的优势,并且可以将 LLM 模型与外部数据源进行连接,产生更强大的语言理解 和生成效果。这开启了 LLM 集成应用的新方向,并诞生了 一个新的细分领域“LLMOps”。 七、 “提示词工程”,这是 LLM 直接催生出来的新“学科”, 它的核心在于研究人类如何与 LLM 更好地进行“沟通”, 找到让 从一开始就是应用的中枢,应用本身的架构、功能、 交互层是围绕 LLM 中枢来构建的。也许 ChatGPT 是最 经典的“AI 原生”应用。此概念目前还处在萌芽期,明确 的概念、应用场景、架构、技术栈细节等尚未完成自洽。 换一种视角来看,这个概念的提出其实都没技术什么事, 有人称之为“造商业概念”,这里按下不表。 十、 镜头给到国内。相比国际上当前逢 AI 必 GenAI,国内更 多地还是在 LLM 这一层面,Robin0 码力 | 87 页 | 31.99 MB | 1 年前3
2024 中国开源开发者报告40 | 2024 年 AI 编程技术与工具发展综述 45 | RAG 的 2024:随需而变,从狂热到理性 51 | 大模型训练中的开源数据和算法:机遇及挑战 57 | 2024 年 AI 编程工具的进化 62 | AI 开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI 应用的核心架构 68 | 谈开源大模型的技术主权问题 72 | 2024:大模型背景下知识图谱的理性回归 量达到了40万个,越来越多的开 发者选择凝聚在一起,共同拥抱 开放透明的组织协同。 7 / 111 本年度最受开发者关注的开源组织 2024 年,技术大厂及其大型项 目依然备受关注,它们推动着技 术的快速发展和广泛应用。 同时,「民间」开源组织虽然在 关注度上不及大厂主导的项目, 但它们在某些技术细分领域中却 拥有非常强的影响力和活跃的开 发者社区。 两者的不同发展模式相互补充, 共同推动了国内开源生态的繁荣 与多样化。 Star 数方面,更加注重创 新和技术探索「民间」开源组织 更加「接地气」,受到了更多开 发者的喜爱。 虽然面临资源的挑战,但它们的 灵活性和社区驱动力使得它们获 得了更多开发者的支持。 9 / 111 本年度最活跃的开源组织 不同开源组织在 Issue 解决 和 PR 处理数量上的差异,反映了它 们在开发活跃度、社区参与度和 技术成熟度上的不同战略。 技术大厂主导的项目往往具有较 高的资源投入和社区管理效率,0 码力 | 111 页 | 11.44 MB | 8 月前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 对数据进行诊断、预测、关联、聚类分析,常用于问题 定位、需求预测、推荐系统、异常检测等。 对数据进行分类、社交网络分析或时序模式挖掘,常用 结论 测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响,仅供参考,无法作为决策制定、质量评估或产品验证的最终依据。 文本数据集成 1、分别阅读约7000token和15000token的文 本内容,测试模型对中、长文本处理效果 2、整理集成可视化的数据表格 3、按照日期规范排序 任务 Open AI o3mini 一般文本(7000token): 能够高效提取文本中的数据, 数据,输出格式规范的数据 表格,但集成数据维度仍然 不够全面。 DeepSeek R1 一般文本(7000token):能 详细全面地提取文本数据,并 集成可视化表格,但受大样本 或模型稳定性影响,输出表格 末尾缺失,需要重复尝试生成。 长文本(15000token):暂时 无法给出答复。 【所需阅读文本】请根据以上文本完成以下三个任务:1、阅读 文本内容;2、整理集成可视化的数据表格;3、按照日期规范排0 码力 | 85 页 | 8.31 MB | 8 月前3
2021 中国开源年度报告COVID 之中。但是,从另一个角度来看,世界正在发生巨变, 我们所处的世界,正在高速朝着某个未知的方向前进。 对于中国开源而言,2021 年的关键词,应该是“助跑”。迹象已经 非常明显,工信部信息技术发展司发布了《“十四五”软件和信息技 术服务业发展规划》,就是一个典型的信号,开源领域即将起飞了。 从地面行走,到天空飞行,这是两个完全不同的阶段。而 2021 年, 则是起飞之前的助跑阶段。从地面到天空,意味着整个行为的模式 对抗的背景,很多人开始从国际政治、国家实力、国家安全的角度, 来探讨开源(这个原本是纯技术的范畴)。直到最近几起开源软件安 全事件,更是令大家议论纷纷。这样一个令人喜忧参半的现象,也 许还会继续持续下去。 生态责任 在开源还只是一个小众群体的业余爱好时,几乎做任何事情,都是 自由的。但是,在软件吞噬世界、开源吞噬软件的今天,开源技术, 2021 中国开源年度报告 3 已经成为整个世界的基础设施之一。能力越大,责任越大。应用越广, 受访者所在的企业类型 …………………………………………………………………………… 17 3.5 公司购买开源产品的决策 ………………………………………………………………………… 18 3.6 受访者所从事的技术方向 ………………………………………………………………………… 19 3.7 开发语言 …………………………………………………………………………………………… 20 3.8 Java 开发框架0 码力 | 132 页 | 14.24 MB | 1 年前3
2021 中国开源年度报告moving in an unknown direction at high speed. 对于中国开源而言,2021 年的关键词,应该是“助跑”。迹象已经非常明显,工信部信息技术 发展司发布了《“十四五”软件和信息技术服务业发展规划》,就是一个典型的信号,开源领域 即将起飞了。从地面行走,到天空飞行,这是两个完全不同的阶段。而 2021 年,则是起飞之 前的助跑阶段。从地面到天空,意味着整 开源不仅越来越热,而且已经在圈外的朋友中引发了各种讨论。首先是嗅觉灵敏的投资人开始 关注开源这个“赛道”,然后是基于中美对抗的背景,很多人开始从国际政治、国家实力、国家 安全的角度,来探讨开源(这个原本是纯技术的范畴)。直到最近几起开源软件安全事件,更 是令大家议论纷纷。这样一个令人喜忧参半的现象,也许还会继续持续下去。 Open source is getting hotter and hotter 生态责任 / Ecological responsibility 在开源还只是一个小众群体的业余爱好时,几乎做任何事情,都是自由的。但是,在软件吞噬 世界、开源吞噬软件的今天,开源技术,已经成为整个世界的基础设施之一。能力越大,责任 越大。应用越广,风险越高。我们应该如何思考与保障开源供应链安全呢?应该如何建设更加 健康的开源生态呢?在这样一种生态中,各方的责任又该如何界定呢?0 码力 | 199 页 | 9.63 MB | 1 年前3
2023年中国基础软件开源产业研究白皮书码按照一定的开源规范 开放,任何人可以查看、使用、贡献,同时,使用者也要遵循一定的开源规范。 基础软件开源范畴界定 国内基础软件开源界定 基础软件 具备能衍生出并支撑 多个技术簇的一类根 技术软件,拥有技术 门槛高、衍生场景复 杂等特点 中间件:不同系统和应用程序之间交互 与协作的桥梁 AI框架:具备构建和部署人工智能模型 的基础的全套开发工具 操作系统:是软硬件资源的资源管理者, ,由艾瑞咨询研究院自主研 究及绘制。 中外软件开源对比(2) 国内九成以上开发者使用开源软件,其中近半数人员参与开源,新增贡 献者占比世界靠前 中国开源产业起步晚,发展尚不成熟的现象可以从信息技术发展环境、权威性组织的建立这两个角度看出。权威性组织的建立方面, 全球开源软件标准的权威发布机构OSI于1998年成立,但国内第一个权威性开源软件推进联盟成立于2004年;再如阿帕奇软件基金 会于1 量辅助:1)开源基金会可选择性接受项目的捐赠并运营项目;2)开源技术论坛通常会提供更广阔的开发者交流平台,提升开发者 能力水平;3)开源社区评估机构可对开源社区进行评分,辅助开发者选择要参与的开源项目;4)开源产业联盟往往会对行业贡献 技术指标、开源规范等,引导行业专业化发展。 来源:根据专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 开源产业链 运营: 发起者为运营者 开源技术论坛\开源社区评估机构\开源产业联盟0 码力 | 43 页 | 4.69 MB | 1 年前3
【彩页】202405 DataEase嵌入式版DatasheetDataEase FIr2CLOUD习区去 放下品牌 DataEase 做入式版: 无缝骨入客户所需的自助式分析技术 数据可视化需求体现在数字经济时代的方方面面。对于1SY (Independent Software Vendor ,独立软件开发商) 和 S| (System Integrator,系统集成商) 来说,其软件产品与解决方案在数据应用领域面临着很多挑战 首先是软件数据堆积造成的隐形浪费问题软件自身所生产的数据需要被更加 系统中,快速提升其产品的竞争力和客户使用体验,同时有效降低技术实现成本。 人 应用功能层 前技术层 平台API层 ataEase 开有下天可和化析平台 DataEase 购入式版支持多种方式的洲入: 图 图表嵌入: 衬单个图表/ 表格注入到系统中,辅押用户进行决 图仪表板/ 数据大屏谋入; 将设计好的仪表板 /数据大屏集成到第三方系统,支持通过传递参数过泪数据,同时支持联动、跳转、下钻、 系统里,直接提供数据分析所需要的全部功能。模块入功能类似门户谨入,将 DataEase 的数据源、数据集、仪表板、数据大屏等责面折 开谍入至第三方系统,亦可直接提供数据分析所需要的全部功能; 图 AP 深度集成: DataEase 对外提供几乎所有模块所有功能的 AP| 接口,通过调用 AP| 接口可以完成仪表板、数据大屏、数据源、 数据集、用户、组织、角色、权限等一系列的管理功能 图 办公教件对接: DataEase0 码力 | 2 页 | 3.02 MB | 1 年前3
202402 DataEase 嵌入式版介绍⻚⾯嵌⼊ 仪表板 / 数据⼤屏 图表嵌⼊ 仪表板 / 数据⼤屏 设计器嵌⼊ BI 功能模块嵌⼊ ⻔户嵌⼊ OEM ⽩标 结果嵌⼊ 设计器嵌⼊ 整体嵌⼊ DIV URL Iframe 前端技术层 DataEase 开源数据可视化分析平台 RESTful API JavaScript API 仪表板管理 数据⼤屏管理 数据集管理 数据源管理 ⽤户管理 组织管理 ⻆⾊管理 权限管理 前端事件交互 当前尚不⽀持,后续根据需求情况再进⾏开发。 图表嵌⼊ 将单个图表 / 表格嵌⼊到系统中,辅助⽤户进⾏决策。 仪表板图表嵌⼊ 数据⼤屏图表嵌⼊ 仪表板 / 数据⼤屏嵌⼊ 将设计好的仪表板 / 数据⼤屏集成到第三⽅系统,⽀持通过传递参数过滤数据,同时⽀持联动、跳转、下钻、过滤等⾃ 助式分析操作,快速增强业务系统的可视化分析能⼒。 仪表板嵌⼊ 数据⼤屏嵌⼊ 设计器嵌⼊ 将整个仪表板 / 数据 嵌 ⼊ 功 能 类 似 ⻔ 户 嵌 ⼊ , 将 DataEase 的数据源、数据集、仪表 板、数据⼤屏等模块拆开嵌⼊⾄第三⽅ 系统,亦可直接提供数据分析所需要的 全部功能。 API 深度集成 DataEase 对外提供⼏乎所有模块所有 功能的 API 接⼝,通过调⽤ API 接⼝ 可以完成仪表板、数据⼤屏、数据源、 数据集、⽤户、组织、⻆⾊、权限等⼀ 系列的管理功能。 办公软件对接0 码力 | 30 页 | 11.06 MB | 1 年前3
共 179 条
- 1
- 2
- 3
- 4
- 5
- 6
- 18













