 Moonshot AI 介绍事情,⼤家通过试图改变scalinglaw⾥的具体关系来获得更 ⾼的efficiency,多出来的efficiency就是各⾃的优势。 现在很多⼈觉得做出MoE就可以实现GPT-4。我觉得这是⽚⾯的说法,最终更实质的可能还是如何有 ⼀个统⼀的表⽰空间以及可规模化的数据⽣产。 海外独⻆兽:如果算⼒⾜够,会有⼈想做⼀个万亿参数的densemodel吗? 杨植 制化去完全取代微调? 我认为现在正在往这个⽅向⾛,未来模型不需要微调,⽽是通过强⼤的上下⽂⼀致性和指令跟随能⼒ 来解决问题,⻓期趋势应该是底层技术个性化,这会是⼀个很重要的变化。 ⽐如,GPT-4带来的新的计算范式,创建GPTs并不需要微调。以前的定制化是通过programming实 现的,今天实际上是通过让模型的prefix变得⾮常复杂,从这个通⽤的集合中抽出你想要的东西。通 ⽔平之后的模型完全可以⾃我进化,这样才能突破⼈类已有 能⼒的边界。 海外独⻆兽:你怎么看追平GPT-4的难度和时间? 杨植麟:Benchmarking刷到GPT-4⾮常简单,但是达到它的实际效果肯定有难度的,⽽且靠的不只 是资源,Google已经验证了这⼀点。其实GPT-4的训练成本也没那么⾼,⼤⼏千万美元不是⼀个很吓 ⼈的数字,对我们来说是好事,并且我们已经有⽐较好的进展。0 码力 | 74 页 | 1.64 MB | 1 年前3 Moonshot AI 介绍事情,⼤家通过试图改变scalinglaw⾥的具体关系来获得更 ⾼的efficiency,多出来的efficiency就是各⾃的优势。 现在很多⼈觉得做出MoE就可以实现GPT-4。我觉得这是⽚⾯的说法,最终更实质的可能还是如何有 ⼀个统⼀的表⽰空间以及可规模化的数据⽣产。 海外独⻆兽:如果算⼒⾜够,会有⼈想做⼀个万亿参数的densemodel吗? 杨植 制化去完全取代微调? 我认为现在正在往这个⽅向⾛,未来模型不需要微调,⽽是通过强⼤的上下⽂⼀致性和指令跟随能⼒ 来解决问题,⻓期趋势应该是底层技术个性化,这会是⼀个很重要的变化。 ⽐如,GPT-4带来的新的计算范式,创建GPTs并不需要微调。以前的定制化是通过programming实 现的,今天实际上是通过让模型的prefix变得⾮常复杂,从这个通⽤的集合中抽出你想要的东西。通 ⽔平之后的模型完全可以⾃我进化,这样才能突破⼈类已有 能⼒的边界。 海外独⻆兽:你怎么看追平GPT-4的难度和时间? 杨植麟:Benchmarking刷到GPT-4⾮常简单,但是达到它的实际效果肯定有难度的,⽽且靠的不只 是资源,Google已经验证了这⼀点。其实GPT-4的训练成本也没那么⾼,⼤⼏千万美元不是⼀个很吓 ⼈的数字,对我们来说是好事,并且我们已经有⽐较好的进展。0 码力 | 74 页 | 1.64 MB | 1 年前3
 2023 中国开源开发者报告“Llama 2 一开源,全球范围内进入了百模混战阶段”, 这个说法一点也不为过。 年底的“虚假宣传” Gemini 与“磁力链开源” Mistral 8x7B 两大神作,也凭借不输 GPT-4 的实力,将 LLM 狂 潮卷到天际。 四、 Stable Diffusion 和 Midjourney 这两大图像生成系统 的出现,极大地拓展和加速了 LLM 在计算机视觉领域的应 用 研究 设计:张琪  07 | AIGC  11 | 1024 黄金眼  13 | 项目停更  16 | 生产事故  18 | 开源治理 1 1 OpenAI 正式发布GPT-4 AIGC 回顾 2023 大语言模型 LLM 元年的重磅事件。 开源开发者事件回顾 Anthropic 推出Claude 2023 年 3 月,百度全新一代知识增强大语言模型、文心大模型家族的新成 据多了 40%,上下文 谷歌发布最强 AI 大模型Gemini 2023 年 12 月,谷歌发布了其认为规模最大、功能最强大的多模态 AI 大模型— —Gemini,称比 OpenAI 的 GPT-4 更先进。 Meta 开源Llama 2 2023 年 3 月 15 日,由 OpenAI 前成员创立的 Anthropic 发布对话 AI 产品 Claude,包含 520 亿个参数。 与 ChatGPT0 码力 | 87 页 | 31.99 MB | 1 年前3 2023 中国开源开发者报告“Llama 2 一开源,全球范围内进入了百模混战阶段”, 这个说法一点也不为过。 年底的“虚假宣传” Gemini 与“磁力链开源” Mistral 8x7B 两大神作,也凭借不输 GPT-4 的实力,将 LLM 狂 潮卷到天际。 四、 Stable Diffusion 和 Midjourney 这两大图像生成系统 的出现,极大地拓展和加速了 LLM 在计算机视觉领域的应 用 研究 设计:张琪  07 | AIGC  11 | 1024 黄金眼  13 | 项目停更  16 | 生产事故  18 | 开源治理 1 1 OpenAI 正式发布GPT-4 AIGC 回顾 2023 大语言模型 LLM 元年的重磅事件。 开源开发者事件回顾 Anthropic 推出Claude 2023 年 3 月,百度全新一代知识增强大语言模型、文心大模型家族的新成 据多了 40%,上下文 谷歌发布最强 AI 大模型Gemini 2023 年 12 月,谷歌发布了其认为规模最大、功能最强大的多模态 AI 大模型— —Gemini,称比 OpenAI 的 GPT-4 更先进。 Meta 开源Llama 2 2023 年 3 月 15 日,由 OpenAI 前成员创立的 Anthropic 发布对话 AI 产品 Claude,包含 520 亿个参数。 与 ChatGPT0 码力 | 87 页 | 31.99 MB | 1 年前3
 开源中国 2023 大模型(LLM)技术报告有出色的表现。 GitHub Copilot 16 / 32 大模型应用现状:知名大模型 在全球范围内,已经发布了多款知名大模型,这些大模 型在各个领域都取得了突破性的进展。 处理文本数据的 GPT-4,能同时处理和理解多种类型数 据的多模态模型 DALL-E 3,以及开源大模型的代表 Lllama 2 都在短时间内获得了大量关注和用户,构成了 大模型领域的「第一梯队」。 讯飞星火 17 Agent。在给定 AutoGPT 一个自然 语言目标后,它会尝试将其分解为多个子任务,并在自动循环中使用 互联网和其他工具来实现该目标。它使用的是 OpenAI 的 GPT-4 或 GPT-3.5 API,是首个使用 GPT-4 执行自主任务的应用程序实例。 AutoGPT 最大的特点在于能根据任务指令自主分析和执行,当收到 一个需求或任务时,它会开始分析这个问题,并且给出执行目标和具 体任务,然后开始执行。0 码力 | 32 页 | 13.09 MB | 1 年前3 开源中国 2023 大模型(LLM)技术报告有出色的表现。 GitHub Copilot 16 / 32 大模型应用现状:知名大模型 在全球范围内,已经发布了多款知名大模型,这些大模 型在各个领域都取得了突破性的进展。 处理文本数据的 GPT-4,能同时处理和理解多种类型数 据的多模态模型 DALL-E 3,以及开源大模型的代表 Lllama 2 都在短时间内获得了大量关注和用户,构成了 大模型领域的「第一梯队」。 讯飞星火 17 Agent。在给定 AutoGPT 一个自然 语言目标后,它会尝试将其分解为多个子任务,并在自动循环中使用 互联网和其他工具来实现该目标。它使用的是 OpenAI 的 GPT-4 或 GPT-3.5 API,是首个使用 GPT-4 执行自主任务的应用程序实例。 AutoGPT 最大的特点在于能根据任务指令自主分析和执行,当收到 一个需求或任务时,它会开始分析这个问题,并且给出执行目标和具 体任务,然后开始执行。0 码力 | 32 页 | 13.09 MB | 1 年前3
 普通人学AI指南. . . . . . . . 12 2.6.1 AgentGPT . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.2 GPT-4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.3 Gemma . . . . . . . . . . . . 模型提示词的工具,旨在快速获取和使用最新的 AI 提示进行内容 创作。 2.6 AI 大模型 2.6.1 AgentGPT 一个基于浏览器的自主 AI 工具,专为交互式任务和自动化操作设计。 2.6.2 GPT-4 由 OpenAI 开发的最新大型语言模型,继承了 GPT-3 的能力,功能更加强大和 精确,但为闭源产品。 12 Figure 10: AI 大模型 2.6.3 Gemma 描述:谷歌推出的一款轻量级开源0 码力 | 42 页 | 8.39 MB | 8 月前3 普通人学AI指南. . . . . . . . 12 2.6.1 AgentGPT . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.2 GPT-4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.6.3 Gemma . . . . . . . . . . . . 模型提示词的工具,旨在快速获取和使用最新的 AI 提示进行内容 创作。 2.6 AI 大模型 2.6.1 AgentGPT 一个基于浏览器的自主 AI 工具,专为交互式任务和自动化操作设计。 2.6.2 GPT-4 由 OpenAI 开发的最新大型语言模型,继承了 GPT-3 的能力,功能更加强大和 精确,但为闭源产品。 12 Figure 10: AI 大模型 2.6.3 Gemma 描述:谷歌推出的一款轻量级开源0 码力 | 42 页 | 8.39 MB | 8 月前3
 清华大学第二弹:DeepSeek赋能职场通过该文案吸引潜在客户,促成消 费……通过该报告为相关企业管理 者提供……策略支撑 Objective(操作要 求) 字数要求、段落结构、用词风格、 内容要点、输出格式… CO-STAR提示语框架 新加坡 GPT-4 提示工程竞赛冠军提示词框架 "R",代表 "Response", 想要的回应类型。 一份详细的研究 报告?一个表格? Markdown格式? "C"代表 “Context(上 下文)” 相关的0 码力 | 35 页 | 9.78 MB | 8 月前3 清华大学第二弹:DeepSeek赋能职场通过该文案吸引潜在客户,促成消 费……通过该报告为相关企业管理 者提供……策略支撑 Objective(操作要 求) 字数要求、段落结构、用词风格、 内容要点、输出格式… CO-STAR提示语框架 新加坡 GPT-4 提示工程竞赛冠军提示词框架 "R",代表 "Response", 想要的回应类型。 一份详细的研究 报告?一个表格? Markdown格式? "C"代表 “Context(上 下文)” 相关的0 码力 | 35 页 | 9.78 MB | 8 月前3
 【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502360联合北大研发:5%参数量逼近Deepseek-R1满血性能 18政企、创业者必读 DeepSeek出现之前的十大预判 之六 成本越来越低  过去一年,大模型成本「自由落体」  国外:GPT-4等效智能在过去18个月内价格下降240倍  国内:大模型「亏本」卖,可以「白嫖」大模型API能力 19政企、创业者必读 DeepSeek出现之前的十大预判 之七 多模态越来越重要  由0 码力 | 76 页 | 5.02 MB | 5 月前3 【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502360联合北大研发:5%参数量逼近Deepseek-R1满血性能 18政企、创业者必读 DeepSeek出现之前的十大预判 之六 成本越来越低  过去一年,大模型成本「自由落体」  国外:GPT-4等效智能在过去18个月内价格下降240倍  国内:大模型「亏本」卖,可以「白嫖」大模型API能力 19政企、创业者必读 DeepSeek出现之前的十大预判 之七 多模态越来越重要  由0 码力 | 76 页 | 5.02 MB | 5 月前3
 云计算白皮书源供给的双向变革,加速了云计算向面向大体量分布式应用体系化、 工程化创新的操作系统演进。 云计算白皮书(2023 年) 27 向下来看,算力资源呈现出计算异构、算网融合的特点。以 GPT-4 为例,其模型训练借助公有云能力在通用 CPU 的基础上整合 上万个 GPU 芯片,通过云计算平台实现 GPU 集群和 CPU 集群的标 准化封装,保障训练任务可以直接下发到大规模计算集群。同时在0 码力 | 47 页 | 1.22 MB | 1 年前3 云计算白皮书源供给的双向变革,加速了云计算向面向大体量分布式应用体系化、 工程化创新的操作系统演进。 云计算白皮书(2023 年) 27 向下来看,算力资源呈现出计算异构、算网融合的特点。以 GPT-4 为例,其模型训练借助公有云能力在通用 CPU 的基础上整合 上万个 GPU 芯片,通过云计算平台实现 GPU 集群和 CPU 集群的标 准化封装,保障训练任务可以直接下发到大规模计算集群。同时在0 码力 | 47 页 | 1.22 MB | 1 年前3
 第29 期| 2023 年9 月- 技术雷达如果正在考虑或正在使用 Azure,那么 我们推荐评估 Azure OpenAI 服务。它通过 REST API 、Python SDK 以及基于 Web 的界面提供对 OpenAI 的 GPT-4、GPT-35-Turbo 和嵌入模型的访问。这些模型可以适应如内容生成、汇总、语义搜索和自然语言到代码 的转换的任务,也可以通过少量学习和超参数的定制进行微调。与 OpenAI 自己的 API0 码力 | 43 页 | 2.76 MB | 1 年前3 第29 期| 2023 年9 月- 技术雷达如果正在考虑或正在使用 Azure,那么 我们推荐评估 Azure OpenAI 服务。它通过 REST API 、Python SDK 以及基于 Web 的界面提供对 OpenAI 的 GPT-4、GPT-35-Turbo 和嵌入模型的访问。这些模型可以适应如内容生成、汇总、语义搜索和自然语言到代码 的转换的任务,也可以通过少量学习和超参数的定制进行微调。与 OpenAI 自己的 API0 码力 | 43 页 | 2.76 MB | 1 年前3
 DeepSeek从入门到精通(20250204)需要严格逻辑链的任务(如数学证明) 性能本质 专精于逻辑密度高的任务 擅长多样性高的任务 强弱判断 并非全面更强,仅在其训练目标领域显著优于通用模型 通用场景更灵活,但专项任务需依赖提示语补偿能力 • 例如:GPT-3、GPT-4(OpenAI),BERT(Google),主要用于语言生成、语言理解、文本分类、翻译 等任务。 快思慢想:效能兼顾 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI0 码力 | 104 页 | 5.37 MB | 8 月前3 DeepSeek从入门到精通(20250204)需要严格逻辑链的任务(如数学证明) 性能本质 专精于逻辑密度高的任务 擅长多样性高的任务 强弱判断 并非全面更强,仅在其训练目标领域显著优于通用模型 通用场景更灵活,但专项任务需依赖提示语补偿能力 • 例如:GPT-3、GPT-4(OpenAI),BERT(Google),主要用于语言生成、语言理解、文本分类、翻译 等任务。 快思慢想:效能兼顾 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI0 码力 | 104 页 | 5.37 MB | 8 月前3
 2024 中国开源开发者报告合成数据驱动新产业链 早有机构预测,人类社会可利用训练数据会在 2026 年耗尽。这可能还是一个乐观估计。光 头哥 Tibor Blaho 还曾爆料,OpenAI 用于训练“猎户座“的数据中,已经包含了由 GPT-4 和 O1 产出的合成数据。 这不仅是因为自然存在的高质量文本的匮乏,还因为智能体所需的数据很可能需要显式地蕴 含任务思考和规划的拆解信息。然而,针对合成数据的问题,学术界早有预警,模型可能会在合0 码力 | 111 页 | 11.44 MB | 8 月前3 2024 中国开源开发者报告合成数据驱动新产业链 早有机构预测,人类社会可利用训练数据会在 2026 年耗尽。这可能还是一个乐观估计。光 头哥 Tibor Blaho 还曾爆料,OpenAI 用于训练“猎户座“的数据中,已经包含了由 GPT-4 和 O1 产出的合成数据。 这不仅是因为自然存在的高质量文本的匮乏,还因为智能体所需的数据很可能需要显式地蕴 含任务思考和规划的拆解信息。然而,针对合成数据的问题,学术界早有预警,模型可能会在合0 码力 | 111 页 | 11.44 MB | 8 月前3
共 10 条
- 1













