Moonshot AI 介绍海外独⻆兽:如果算⼒⾜够,会有⼈想做⼀个万亿参数的densemodel吗? 杨植麟:取决于推理成本的下降速度,但我觉得肯定会有。现在⼤家是因为推理成本太⾼,所以都在 做tradeoff。但是最终直接训练⼀个万亿的densemodel肯定效果会⽐⼀个只有千亿参数的模型要 好。 海外独⻆兽:Anthropic⼀直在提模型的可解释性,这⼀点其实有蛮多争论。你是如何思考可解释性 的?因 ⽆限⻓的话,我们也不需要tokenizer了? 杨植麟:对。本质上模型⾜够强的话,它可以处理任何的token、pixel、byte。有了⽆限⻓的 contextlength,你可以直接把硬盘上所有的东西都输给它,它会变成你真正的新计算机,根据这些 context采取⾏动。 海外独⻆兽:OpenAI、Anthropic等领先的模型公司觉得2024年的⼀⼤瓶颈会是数据,所以他们对 有⼀堆prefix这样的东西⽤来 follow,成本可以降到⾮常低。最终,你对模型个性化的过程实际上就是你所有的交互历史,也是⼀ 个包含了你的偏好和反馈的集合,这些反馈会⽐上个时代的产品更直接,因为它是完全通过对话界⾯ 产⽣的。 基于这个判断,进⼀步就会想:如何在技术层⾯实现基于long-context的定制化去完全取代微调? 我认为现在正在往这个⽅向⾛,未来模型不需要微调,0 码力 | 74 页 | 1.64 MB | 1 年前3
中国开源软件产业研究报告次开发后的产品是“自愿付费”的,或者说出售GPL开源软件的企业实际上必须出售某 种服务而不仅是软件本身。 LGPL:如果类库引用(链接,不修改)则可以闭源商用,否则不能够闭源商用。 EPL:没有修改过,可以直接商用;有修改过,必须在公布源代码的条件下商用,这种 情况下与GPL的发布条件类似。 • 从定义上看,所有的开源协议本质上都是允许“商用”的,之所以在实践中存在一系列开源软件商用后的侵权问题,本质上说 源作者开源软件作品的动机, 可能是企业的战略和市场决 策,也可能是个人的爱好和 对开源产业的支持 • 聚焦到企业为主体的开源行为上来,企业进行开源运营可以选择通过自 身来开展,也可以将项目捐赠给开源基金会,由开源基金会进行直接的 项目运营 • 此处的开源社区指代一个开源项目在运营中所处环境,由不同的开源市 场主体协同构成,以代码托管平台和开源软件论坛为核心(二者可能合 而为一),辅以市场宣传、法律服务、专家指导、产业联盟等机构和服 iresearch.com.cn 来源:艾瑞咨询研究院自主研究及绘制。 企业的开源商业模型(一) 软件开源为企业带来直接收益、渠道收益、行业生态收益 从商业成功的角度上看,企业发布开源软件能够为自身带来直接商业化收益、渠道收益和市场影响力提升带来的产业协同 收益。其中,直接商业化收益包含企业提供开源软件的收费版本、专业服务和引流广告收入;渠道化收入主要包含开源软 件具备一定的“流量”后为企业0 码力 | 68 页 | 3.63 MB | 1 年前3
2023 中国开源开发者报告LLM 模型与外部数据源进行连接,产生更强大的语言理解 和生成效果。这开启了 LLM 集成应用的新方向,并诞生了 一个新的细分领域“LLMOps”。 七、 “提示词工程”,这是 LLM 直接催生出来的新“学科”, 它的核心在于研究人类如何与 LLM 更好地进行“沟通”, 找到让 LLM 能够准确理解人类意图的方法。提示词工程探 索如何以 LLM 可以解析的方式来表达需要它完成的任务, LLM 往往是“碎片化”的,无法提供完整的解决方案。 LLM 往往是“被动式”的,需要用户不断完善输入。 什么意思呢?就是我找 AI 是要解决实际问题的,但它往往都 是给我“应付”一下,直接交货了事了,而不善于去追问本质, 去了解细节,去思考你最终想要的是一个什么样的东西。它需 要你不断完善自己的输入,甚至有时候可能要求在你自身都不 知道“可以想要一个什么东西”的情况下去输入。 这样的话其实就是你在输入与输出:整个事情我都想通了,方 案我其实也就都出来了,机器给到我的都只是一个个独立性 的、小而窄的、解决掉一点一点问题的东西。 举个例子,我说我肚子疼,它会直接告诉我肚子疼可能是因为 什么,怎样做可以缓解或者解决,但它不会一点一点进行“望 闻问切”全套去引导,了解具体情况,最终再给出切实可行的 解决方案。 但回过头来想想,这个话题可深可浅,往浅了说,当前 LLM0 码力 | 87 页 | 31.99 MB | 1 年前3
2024 中国开源开发者报告的素材。考虑到数据获取、加工的成本,模型训练的成本,这是一种相当昂贵的宣传方式。 C 端用户指那些把大模型当成智能个人助理来使用的普通个人用户。OpenAI 在 ChatGPT 上一个重要且成功的操作就是把大模型从学术界、工业界直接推向了普通个体,让 C 端用户切 实感受到了大模型的可能性与魅力。这一点被国内的大模型厂商广泛学习。在 B 站刷视频,国 内知名的那几个大模型厂商的广告,你一个也不会落下。 受到大家的认可与喜爱固然重要,但对于 Sonnet、Claude 3.5 Haiku,大模型自身的能力不断提升,使得模型能够更好地理解和解 决复杂的编程问题。 智能体(AI agent)的引进:智能体可以收集和学习与任务相关的知识,可以直接调用静 态代码分析工具、直接调用搜索引擎和 API 为编程任务服务,并通过构建代码仓库知识图来帮 助大模型全面理解软件仓库的结构和依赖关系,从而更好地定位问题根源并生成有效的代码补丁。 智能体还可以动态获取代 足够清晰(指的是没有歧义内容、检索相关度高),结果就会非常准确?根据我们的实 践结果,答案是明确的:今年 9 月份我们对一些项目进行了槽位填充(消除模糊问答)和元数 据辅助之后,问答准确率可达到 98%以上。比直接把大文本扔进同一个 LLM 测试的问答准确率 几乎高出 14 个百分点。 有同学会说,LLM 幻觉的深层原因是 temperature 或者说概率引起的。就我纯个人观点来 看,现当下的 LLM0 码力 | 111 页 | 11.44 MB | 8 月前3
2021 中国开源年度报告2 开源合规情况 Gitee 采用棱镜七彩 FossEye 扫描了 1.5 万 个 Gitee 平台上具有代表性的优质推荐开源项目仓库,结 果显示有超过 95% 不存在直接 License 冲突风险。 其中,在所有存在直接 License 冲突风险的项目中,仅存在 1 个 License 冲突风险的占比为 44.21%。 3 总结 2021 年,国内开源生态发展稳中向好,参与开源的人数随 开源带来了产品的快速迭代与用户场景的拓宽。开源模式下的协同开发平台使产品迭代速度加快。开源 模式下,社区成员能够协同编写软件,软件用户可以提交及时使用反馈,在反馈的基础上开发人员可以 进行更高效地修改、迭代。此外,开源使用户可以直接参与到产品开发中来,这比闭源软件开发更能了 解客户的需求,并且发掘出用户需要的使用场景。因此,相对于单一的闭源软件供应商,开源社区有着 2021 中国开源年度报告 77 更清晰的研发方向,能 球范围内云渗透率的不断提高。在这样的技术背景下,用户对降低软件运维成本的需求不断增加。一些 开源软件公司例如 Databricks、HashiCorp 等提出了新的解决方案,通过 SaaS 使客户跳过内部部署, 82 直接将软件作为服务托管在云平台上。客户通过订阅 SaaS 服务,将前期高额的资本性支出转为小额的 经常性支出,并在很大程度上缓解了运维压力。 图表 12: 云计算支出增长以及全球云渗透率的提高持续受到推动0 码力 | 132 页 | 14.24 MB | 1 年前3
2023年中国基础软件开源产业研究白皮书Mozilla许可证 全部不了解直接使用 LGPL许可证 BSD许可证 GPL许可证 MIT许可证 Apache许可证 百分比(%) 来源:Gitee《2022中国开源开发者报告》,结合专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 开发者对常见开源许可证了解情况 开源开发者对于许可证种类与应用的了解不全 17%的开源开发者对于所有开源许可证不了解但直接使用 开发者对于许可证的种类认知并不全面,了解程度最高的 ,持续加码开源项目运营 基础软件的开源发起者一般为企业级开发者,对于他们来讲,开源项目从设立、运营到最终成熟是一个长期的过程。不同于传统项 目具有明确、可量化的ROI,开源项目为企业带来的多为无法直接变现的间接性收益,但这类收益却是支撑企业长期走稳走强的底层 动力。我们看到,市场中一些开源项目因一段时间后仍无法看到明确的项目回报而以失败告终,逐渐被开源发起者抛弃。正因如此, 企业应转变短视思路,0 码力 | 43 页 | 4.69 MB | 1 年前3
2020 中国开源年度报告
TiDB 4.0 版本正式推出了 TiFlash 列 式引擎。在 Real-time HTAP 的道路上迈出了坚实的⼀步。从我们的数据上来看,接近 1/3 的 4.0 集群⽤上了 TiFlash。说明直接在 TP 的数据上作实时的数据洞察是普遍的需求。 其中可以感受到国内的开源氛围及开发者的活跃度也在逐步提升,我们从 2019 年底的 500+ contributor 到 2020 年底数字已经达到了 全球分布的社区所必须的条件。 由于⽆法在任何时候都达成完全共识,此时就可能需要传统⽽具有约束⼒的投票或其他协 调⽅式,以帮助消除决策障碍。 负责任的监督:ASF 治理模式以信任和授权监督为基础,让项⽬⾃治并直接向董事会提供 报告。Apache 提交者们互相帮助:相互评估提交,采⽤强制性安全措施,确保许可合规 性,以及保护 Apache 品牌和整个社区免于受到伤害。 3.3 数据分析 我们计算了所有源⾃中国的共计 宣传组成员严重过剩,⽽且能有很多宣 传组成员在活动结束后仍然留在社区当中。这当然也跟数据来源⼤多来⾃于微信⽽不是 Slack 有关,在 GitHub 和 Slack 当中的更多的是程序员或⼯程师,会直接参与到项⽬当中,⽽不会 填写表单。 7、总结 & 致谢 本部分所有内容的数据、分析⽅法与分析结果由 X-lab 开放实验室所⽀持,内容撰写⽅⾯做 出贡献的⼩组成员包括:王皓⽉、朱⾹宁,“案例分析——Wuhan2020”0 码力 | 46 页 | 4.09 MB | 1 年前3
2021 中国开源年度报告Open Source Compliance Gitee 采用棱镜七彩 FossEye 扫描了 1.5 万 个 Gitee 平台上具有代表性的优质推荐开源项 目仓库,结果显示有超过 95% 不存在直接 License 冲突风险。 Gitee used Prismatic Seven FossEye to scan a representative sample of 15,000 recommended repositories on the Gitee platform, and over 95% of them were free of direct license conflicts. 其中,在所有存在直接 License 冲突风险的项目中,仅存在 1 个 License 冲突风险的占比 为 44.21%。 Of the projects with direct license conflicts 开源带来了产品的快速迭代与用户场景的拓宽。开源模式下的协同开发平台使产品迭代速度加 快。开源模式下,社区成员能够协同编写软件,软件用户可以提交及时使用反馈,在反馈的基 础上开发人员可以进行更高效地修改、迭代。此外,开源使用户可以直接参与到产品开发中来, 这比闭源软件开发更能了解客户的需求,并且发掘出用户需要的使用场景。因此,相对于单一 的闭源软件供应商,开源社区有着更清晰的研发方向,能致力于开发出更多的功能,并创造出 对0 码力 | 199 页 | 9.63 MB | 1 年前3
全球开源发展态势洞察(2023年第八期)CzechPoint31:自2007年起,捷克政府采用了一套基于开源软件(OSS)解决方案的捷克公证系统 (CzechPoint)。捷克公证系统旨在实现公民和企业能够访问并获取经过认证的文件,并与公共行 政部门直接进行沟通,同时公共行政部门可以利用此系统进行数据共享。这些服务在公共行政联络 点获取,可通过蓝色 捷克公证系统徽标识别。捷克公证系统采用Suse Linux操作系统和Tomcat Java应用服务器,同时借助Mrtgm0 码力 | 22 页 | 1.99 MB | 1 年前3
共 9 条
- 1













