2024 中国开源开发者报告——内化了企业流程、借助了大模型能力的、带有可交互界面的程序。2025 年会成为大模型应 用或 AI 应用之争。 另外还有一个趋势也很明显,就是知识管理和协作。我们都说这波 AI 浪潮把原来“没用” 的非结构化数据给激活了,所以我们马上会看到那些原来堆在角落里面的“冷”文件和知识(类 似 wiki)会被大量启用,“热”文件和知识会爆炸性增长,知识的协作和管理会成为新的问题— —就像你有再多的先进坦克和 Wikipedia 和 Common Crawl:Wikipedia 是一个由全球用户共同编辑和维护的高质量在 线百科全书,以文字为主,知识高度结构化,Common Crawl 是一个非营利组织,定期抓取互联 网公开网页,生成大量的网页数据集,可提供大量的互联网用户知识及非结构化数据。他们的共 同点是为模型训练提供了充沛的文字素材。这些大型文本数据集为自然语言处理(NLP)模型的 训练提供了丰富的语料库。像 Markdowner 等开源项目,能够将网页内容转换成适合 大模型处理的上下文,从而利用最新信息提升问题回答的质量。这些项目的共同目标是将原始数 据转化为有价值的资产,助力企业大规模部署 AI。 对于结构化数据,如对话历史记录和其他数据源的存储管理同样重要。向量数据库如 Chrom、Weaviate、Pinecone、Milvus 等,提供了语义检索和向量存储功能,使得 AI 应用 能够利用超出模型上下文限制的数据源。传统数据库0 码力 | 111 页 | 11.44 MB | 8 月前3
2021 中国开源年度报告每年的托管和服务费获利。 托管意味着提供一个完全托管的项目版本,当用户想要在生产中部署时,可以使用该软件启动远程服务器, 而不必担心它不用担心备份、停机、升级等问题。Databricks、Acquia 等公司已经成功证明了托管模 式商业化路径的可行性。但是这也引起了公有云提供商(例如 AWS)与开源社区的矛盾。 Restrictive Licensing 限制性许可——通过提供一个带有稍带限制的开源许可证来激励使用者进行付 管理的控制权完全交予企业。 102 图表 39 :GitLab 的 Open Core 商业模式 资料来源:公司公告,云启资本 5.3 Jina AI Jina 首创的“神经搜索”,可以让企业利用可操作的非结构化数据构建搜索解决方案,做出更有效的业 务决策。Jina AI 的核心项目在 Github 上被称为 Jina ,允许用户在短短几分钟内创建一个由深度学习 驱动的云原生搜索解决方案。Jina 将构0 码力 | 132 页 | 14.24 MB | 1 年前3
2021 中国开源年度报告务费获利。托管意味着提供一个完全托管的项目版本,当用户想要在生产中部署时,可以使用 该软件启动远程服务器,而不必担心它不用担心备份、停机、升级等问题。Databricks、Acquia 等公司已经成功证明了托管模式商业化路径的可行性。但是这也引起了公有云提供商(例如 AWS)与开源社区的矛盾。 Hosting: Vendors host their open source software on 资料来源:公司公告,云启资本 Source: Company announcement, Yunqi Partners 5.3 Jina AI Jina 首创的“神经搜索”,可以让企业利用可操作的非结构化数据构建搜索解决方案,做出更 有效的业务决策。Jina AI 的核心项目在 Github 上被称为 Jina ,允许用户在短短几分钟内创 建一个由深度学习驱动的云原生搜索解决方案。Jina 将构建一个生产就绪的神经搜索系统的工0 码力 | 199 页 | 9.63 MB | 1 年前3
Moonshot AI 介绍不应该存在, ⽤⼾跟模型的交互历史就是最好的个性化过程,历史上每⼀代技术都是在提升contextlength。 杨植麟⾝上的标签有天才AI科学家、连续创业者……在这次深度访谈中,他再次证明⾃⼰是个真 正“懂”⼤模型的创业者,所以本⽂中有许多反共识的观点:杨植麟觉得微调最终会不存在, tokenizer最后也不⼀定是必须的;硅⾕⼤模型训练者们担⼼数据瓶颈和能源限制,他反⽽觉得所有问 增加。 ⽉之暗⾯:最好的⼈才需要unlearn能⼒ 海外独⻆兽:AGI公司最理想的CEO画像应该是什么样的? 杨植麟:⼀⽅⾯需要有techvision。不能⼀直做别⼈已经证明过的东西。真的AGI公司必须有⾃⼰独 特的技术判断,⽽且这个判断应该影响到公司的整体⽅向。如果⼀号位不能拍板也不⾏。我们年初已 经在做auto-regressive的多模态、lossle 海外独⻆兽:但有可能投资⼈分辨不出来到底谁的techvision是最领先的。 杨植麟:我不太担⼼这个问题。现在就是最好的分配⽅式,更接近⼀个⾃由市场,最后会有最⾼的分 配效率。我们要跟别⼈证明的也不是我们的vision,因为vision是⼀个抽象的东西,还是要通过真实 的deliver模型和产品。Anthropic放出Claude这些模型之后,⻢上就得到了更多的资源。市场是公0 码力 | 74 页 | 1.64 MB | 1 年前3
2023 中国开源开发者报告AI)代表了微软在 LLM 领域的野心和 决心,它首次把当时世人能想到最有价值又可行的 LLM 应用场景——“智能对话+联网搜索”——无缝整合了起来, 大有干掉搜索行业和问答社区的趋势,而后事实证明,全 球 最 强 IT 问 答 社 区 Stack OverFlow 深 受 其 害 。 Google 紧随其后推出 Bard,作为其首次亮相的对话 LLM 产品,无疑具有其里程碑意义,尽管它的首秀并不尽 简洁性,到头来仍旧会添加了这些内容,不仅语言超着复杂方面进化,实现功 力未必赶得上 C++。Bjarne 说过,世界上只有两种语言,一种没人用,另一 种是一边用一边骂的语言。 dwcz:这文章就证明了 C 系语言的没落。就像汇编的没落一样--人们需要的 是更先进和更方便的编程方式,而不是语言上的改良。现在 AI 都可以替代一 部分工作了,还在讨论语言的安全和高效,已经没意义了。C++之父还没理解0 码力 | 87 页 | 31.99 MB | 1 年前3
全球开源发展态势洞察(2023年第八期)多的人了解如何开展红队测试和评估人工智能模 型,才能解决这些模型中的各种问题。”通过对 人工智能模型组开展最大规模的红队演习,AI Village和DEF CON希望能培养出处理人工智能 系统漏洞的研究者社区。事实证明,大语言模型 的锁定难度远超想象,部分原因在于所谓“提示 词注入”技术。人工智能研究员Simon Willison 详细介绍了提示词注入的危险,这种技术可以令 语言模型偏离正轨,执行创建者想要回避的操0 码力 | 22 页 | 1.99 MB | 1 年前3
中国开源软件产业研究报告法》起诉被告侵害 软件著作权。 开源软件“抄袭”违 反什么法律? 软件的“抄袭”可以被认定。在法律实践中,应当将原告主张权利的计算机软件源程序 与被诉侵权的计算机软件源程序进行对比,在案证据能够证明原告主张权利的计算机软 件源程序、文档等文件与被诉侵权的计算机软件相同或者相近似的,可以认定二者构成 实质性相似。 是否能认定软件“抄 袭”,如何做到? 我国法律认为:开源协议属于公开可自由取得的文件,著作权人在公开源代码时明确声0 码力 | 68 页 | 3.63 MB | 1 年前3
共 7 条
- 1













