 Moonshot AI 介绍才会提升模型的能⼒。 杨植麟:你可以认为带MoE和不带MoE是两条scalinglaw。本质上scalinglaw刻画的是loss跟参 数量之间的关系。MoE改变了这个函数,让你能够⽤更⼤的参数,但同时FLOPs不变。合成数据改变 的是另⼀个关系,FLOPs不变的情况下让数据规模增⻓。 沿着scalinglaw⼀直⾛是个有确定性的事情,⼤家通过试图改 模化后会发⽣什么。通过很多预测⼯作,总结规律,然后预测规模化后的情况。这样可以涵盖⼤概主 要的影响因素,剩下的少部分可以通过⼀些经验和试错来推断。 ⽬前我们前期已经验证完,开始去⽤更⼤的数据集去训练,以使训练更稳定,保证代码的正确性,以 及优化损失函数,训练⼤模型。 机器之⼼:很多⼤模型创业公司的初期⽬标都是超过GPT4,“达到或者超越”的标准会是什么? 杨植麟:我认为最重要的标准其实是模型的压缩⽐。 杨植麟:现在看这个观察挺有意思。 当时,我觉得就是⼤模型的第⼀性原理还没有清晰,或者说第⼀性原理还没有真正成为共识。因为现 在的第⼀性原理就是,只要你有更好的压缩⽐,你就会有更好的智能,这个其实对应的就是⼤语⾔模 型的⽬标函数。所以当时(提出Transformer-XL),我们其实是在原模型的基础上取得了⼀个⽐较⼤ 的提升,让它的智能程度提升了很多。但当时,对于这件事情是有⽤的,显然还没有出现⼀个共识。 那其实,本质0 码力 | 74 页 | 1.64 MB | 1 年前3 Moonshot AI 介绍才会提升模型的能⼒。 杨植麟:你可以认为带MoE和不带MoE是两条scalinglaw。本质上scalinglaw刻画的是loss跟参 数量之间的关系。MoE改变了这个函数,让你能够⽤更⼤的参数,但同时FLOPs不变。合成数据改变 的是另⼀个关系,FLOPs不变的情况下让数据规模增⻓。 沿着scalinglaw⼀直⾛是个有确定性的事情,⼤家通过试图改 模化后会发⽣什么。通过很多预测⼯作,总结规律,然后预测规模化后的情况。这样可以涵盖⼤概主 要的影响因素,剩下的少部分可以通过⼀些经验和试错来推断。 ⽬前我们前期已经验证完,开始去⽤更⼤的数据集去训练,以使训练更稳定,保证代码的正确性,以 及优化损失函数,训练⼤模型。 机器之⼼:很多⼤模型创业公司的初期⽬标都是超过GPT4,“达到或者超越”的标准会是什么? 杨植麟:我认为最重要的标准其实是模型的压缩⽐。 杨植麟:现在看这个观察挺有意思。 当时,我觉得就是⼤模型的第⼀性原理还没有清晰,或者说第⼀性原理还没有真正成为共识。因为现 在的第⼀性原理就是,只要你有更好的压缩⽐,你就会有更好的智能,这个其实对应的就是⼤语⾔模 型的⽬标函数。所以当时(提出Transformer-XL),我们其实是在原模型的基础上取得了⼀个⽐较⼤ 的提升,让它的智能程度提升了很多。但当时,对于这件事情是有⽤的,显然还没有出现⼀个共识。 那其实,本质0 码力 | 74 页 | 1.64 MB | 1 年前3
 2024 中国开源开发者报告成数据上的持续训练中崩坏【14】。 33 / 111 这是因为合成数据往往携带“错误”和“幻觉”,在一些冷门的知识上尤甚。因此,合成数 据的实用秘诀是“去粗取精”,需要一定程度的“人机协同”。在如何构造大批量、高质量的合 成数据,让智能体能够在持续地与用户的交互中自我优化而不是劣化,将会成为众多无机器学习 技术背景的开发者的头号难题。 因此,面向数据进行定制化合成、评估、测试、标注、人机协同的“纯数据”产业,有可能 AST)、代码依 赖关系等数据,新的代码生成模型则具有更强的上下文感知能力。 41 / 111 在此基础上,基于 AI 的编程工具能够根据给定的上下文(如函数名、注释、部分代码等) 检索出最相关的代码片段和文档,能够提供完整的函数或代码块建议。这也使得 LLM 能够参考 海量的代码库和技术文档,这不仅能缓解大模型的幻觉问题,显著提升代码生成与理解的准确性, 而且能符合上下文的代码,更能满足开发的业务需求。 RAG、Copilot 及 Agent 等更为高级的阶段。这些大模型具备强大 的数据处理能力和深度学习能力,为各种应用场景提供了前所未有的便利。 单一的大模型在处理所有任务时往往存在局限性,因此需要借助外部工具或函数来增强其处 理能力。 2023 年 6 月 13 日 OpenAI 发布的 GPT 模型的 Function Calling 功能,成为大模型与现 实世界交互的桥梁。Function Calling0 码力 | 111 页 | 11.44 MB | 8 月前3 2024 中国开源开发者报告成数据上的持续训练中崩坏【14】。 33 / 111 这是因为合成数据往往携带“错误”和“幻觉”,在一些冷门的知识上尤甚。因此,合成数 据的实用秘诀是“去粗取精”,需要一定程度的“人机协同”。在如何构造大批量、高质量的合 成数据,让智能体能够在持续地与用户的交互中自我优化而不是劣化,将会成为众多无机器学习 技术背景的开发者的头号难题。 因此,面向数据进行定制化合成、评估、测试、标注、人机协同的“纯数据”产业,有可能 AST)、代码依 赖关系等数据,新的代码生成模型则具有更强的上下文感知能力。 41 / 111 在此基础上,基于 AI 的编程工具能够根据给定的上下文(如函数名、注释、部分代码等) 检索出最相关的代码片段和文档,能够提供完整的函数或代码块建议。这也使得 LLM 能够参考 海量的代码库和技术文档,这不仅能缓解大模型的幻觉问题,显著提升代码生成与理解的准确性, 而且能符合上下文的代码,更能满足开发的业务需求。 RAG、Copilot 及 Agent 等更为高级的阶段。这些大模型具备强大 的数据处理能力和深度学习能力,为各种应用场景提供了前所未有的便利。 单一的大模型在处理所有任务时往往存在局限性,因此需要借助外部工具或函数来增强其处 理能力。 2023 年 6 月 13 日 OpenAI 发布的 GPT 模型的 Function Calling 功能,成为大模型与现 实世界交互的桥梁。Function Calling0 码力 | 111 页 | 11.44 MB | 8 月前3
 中国开源软件产业研究报告11.5% 库 22.9% 大数据 11.1% 网络服务器 8.9% 可扩展标记语言 6.8% 数据库 5.7% web框架 5.4% 网络客户端 5.4% 内容 4.6% 构造管理 4.6% 云 3.5% 其他 21.1% 全球开源项目分布 总量持续上升,项目类型反映市场需求与热度 全球对开源的热情不减,开源项目数量持续攀升。Apache基金会目前为350多个开源项目及社区提供支持,从项目类型上 科技 已推出了KubeSphere容器平台、RadonDB云原生数据库、Xenon高可用组件、OpenPitrix多云应用管理平台、OpenELB 负载均衡器、全象云低代码、OpenFunction函数计算平台、tKeel物联网开放平台等60多个优质开源项目,从0到1运营了 KubeSphere、RadonDB等开源社区,与CNCF、Linux基金会合作,与英特尔、思科等上下游厂商打造精选开源解决方案,0 码力 | 68 页 | 3.63 MB | 1 年前3 中国开源软件产业研究报告11.5% 库 22.9% 大数据 11.1% 网络服务器 8.9% 可扩展标记语言 6.8% 数据库 5.7% web框架 5.4% 网络客户端 5.4% 内容 4.6% 构造管理 4.6% 云 3.5% 其他 21.1% 全球开源项目分布 总量持续上升,项目类型反映市场需求与热度 全球对开源的热情不减,开源项目数量持续攀升。Apache基金会目前为350多个开源项目及社区提供支持,从项目类型上 科技 已推出了KubeSphere容器平台、RadonDB云原生数据库、Xenon高可用组件、OpenPitrix多云应用管理平台、OpenELB 负载均衡器、全象云低代码、OpenFunction函数计算平台、tKeel物联网开放平台等60多个优质开源项目,从0到1运营了 KubeSphere、RadonDB等开源社区,与CNCF、Linux基金会合作,与英特尔、思科等上下游厂商打造精选开源解决方案,0 码力 | 68 页 | 3.63 MB | 1 年前3
 2020 中国开源年度报告
可以进⼀步,通过社区成员的学历进⾏细分,包括已经毕业的。 【社区成员学历,总数 1,606】 通过上图可以看到社区成员的学历最多的还是本科学历,可以结合之前的社区成员的职业信 息,以及邮箱信息,可以推断出,Wuhan2020 开源社区参与者中,⼤多数是 95-05 年龄段 的学⽣。使⽤ Gmail 邮箱的有相当⼀部分来⾃于海外,这部分成员领取志愿者证书的⽐例相 对较少等。 【社区成员擅⻓领域饼状图,总数0 码力 | 46 页 | 4.09 MB | 1 年前3 2020 中国开源年度报告
可以进⼀步,通过社区成员的学历进⾏细分,包括已经毕业的。 【社区成员学历,总数 1,606】 通过上图可以看到社区成员的学历最多的还是本科学历,可以结合之前的社区成员的职业信 息,以及邮箱信息,可以推断出,Wuhan2020 开源社区参与者中,⼤多数是 95-05 年龄段 的学⽣。使⽤ Gmail 邮箱的有相当⼀部分来⾃于海外,这部分成员领取志愿者证书的⽐例相 对较少等。 【社区成员擅⻓领域饼状图,总数0 码力 | 46 页 | 4.09 MB | 1 年前3
 网易数帆 领先的数字化转型技术与服务提供商 2021件产业高质量发展重点项目 产品荣誉 产品能力 产品能力 实时数据采集 适配主流消息队列,通过数 据 库 redo 回 放、CDC、 binlog 回放技术实现数据实 时采集,以库仓一体方案构造 无感知的数据接入,与后续实 时 / 批计算无缝衔接。 实时任务开发 强大的 IDE 套件,支持 jar、 SQL、画布三种开发模式,支 持拖拽、模块化、多语言等特 性,提供在线采样、上传数据 多种调试方式,支持任务血0 码力 | 43 页 | 884.64 KB | 1 年前3 网易数帆 领先的数字化转型技术与服务提供商 2021件产业高质量发展重点项目 产品荣誉 产品能力 产品能力 实时数据采集 适配主流消息队列,通过数 据 库 redo 回 放、CDC、 binlog 回放技术实现数据实 时采集,以库仓一体方案构造 无感知的数据接入,与后续实 时 / 批计算无缝衔接。 实时任务开发 强大的 IDE 套件,支持 jar、 SQL、画布三种开发模式,支 持拖拽、模块化、多语言等特 性,提供在线采样、上传数据 多种调试方式,支持任务血0 码力 | 43 页 | 884.64 KB | 1 年前3
 全球开源发展态势洞察(2023年第八期)代码的功能及其在软件中所起的作用进行判断。最终确定被传染的部分应当是与原开源软件形成 密切通信使得二者高度牵连融合成一体的程序,而非只要有数据交换就会构成传染。未来公司软 件的主程序与涉案GPL开源代码存在函数调用关系,且该开源代码实现的压缩功能系投标文件上 传前不可或缺的功能,故主程序为该开源代码的衍生程序,受GPL协议约束。而预览程序与主程 序相互独立,预览程序文件连同不包含GPL开源代码的DLL文件在脱离主程序后,预览程序、主0 码力 | 22 页 | 1.99 MB | 1 年前3 全球开源发展态势洞察(2023年第八期)代码的功能及其在软件中所起的作用进行判断。最终确定被传染的部分应当是与原开源软件形成 密切通信使得二者高度牵连融合成一体的程序,而非只要有数据交换就会构成传染。未来公司软 件的主程序与涉案GPL开源代码存在函数调用关系,且该开源代码实现的压缩功能系投标文件上 传前不可或缺的功能,故主程序为该开源代码的衍生程序,受GPL协议约束。而预览程序与主程 序相互独立,预览程序文件连同不包含GPL开源代码的DLL文件在脱离主程序后,预览程序、主0 码力 | 22 页 | 1.99 MB | 1 年前3
 2021 中国开源年度报告亿元,相对于 2019 年 348 亿的市场规模,增速达到 28%。 通过在自有云和 Serverless 基础上运行开源,开源方案成本降低。Serverless 平台会根据请求的数量 来创建对应的函数实例来执行,无需人工干预,瞬间弹性扩容,应对流量爆发。更大程度上降低了云基 础设施成本以及维护扩张成本。除此之外,基于 Serverless 开源解决方案能够以零支出在世界各地部署, 并且在运营0 码力 | 132 页 | 14.24 MB | 1 年前3 2021 中国开源年度报告亿元,相对于 2019 年 348 亿的市场规模,增速达到 28%。 通过在自有云和 Serverless 基础上运行开源,开源方案成本降低。Serverless 平台会根据请求的数量 来创建对应的函数实例来执行,无需人工干预,瞬间弹性扩容,应对流量爆发。更大程度上降低了云基 础设施成本以及维护扩张成本。除此之外,基于 Serverless 开源解决方案能够以零支出在世界各地部署, 并且在运营0 码力 | 132 页 | 14.24 MB | 1 年前3
 2021 中国开源年度报告34.8 billion yuan in 2019. 通过在自有云和 Serverless 基础上运行开源,开源方案成本降低。Serverless 平台会根据请 求的数量来创建对应的函数实例来执行,无需人工干预,瞬间弹性扩容,应对流量爆发。更大 程度上降低了云基础设施成本以及维护扩张成本。除此之外,基于 Serverless 开源解决方案能 够以零支出在世界各地部署,并且在运营0 码力 | 199 页 | 9.63 MB | 1 年前3 2021 中国开源年度报告34.8 billion yuan in 2019. 通过在自有云和 Serverless 基础上运行开源,开源方案成本降低。Serverless 平台会根据请 求的数量来创建对应的函数实例来执行,无需人工干预,瞬间弹性扩容,应对流量爆发。更大 程度上降低了云基础设施成本以及维护扩张成本。除此之外,基于 Serverless 开源解决方案能 够以零支出在世界各地部署,并且在运营0 码力 | 199 页 | 9.63 MB | 1 年前3
共 8 条
- 1













