2024 中国开源开发者报告源生态的发展产生了积极的影响,为全球开发者提供了更多创新和应用的可能。 中国开源模型从最初的质疑中崛起,逐步赢得了广泛认可。这不仅彰显了中国开源模型从追 随者到行业引领者的跨越式成长,也为全球人工智能发展注入了新的活力与动力。中国开源模型 的成功并非偶然。在政府对人工智能产业的持续支持以及国内人工智能行业对模型研发的巨额投 入下,从基础算法到行业应用、从算力基础设施到数据资源整合,中国人工智能生态体系正在迅 整理。 展望 2024 年,中国开源模型的发展展现了技术、生态和社会价值之间的深度协同。无论是从技 术创新到社区建设,还是从行业实践到合规探索,中国开源生态体系的完善正在为全球人工智能 发展注入源源不断的动力。 在 Hugging Face,我们坚信开源是推动人工智能技术进步和生态繁荣的核心力量。开源 不仅能够打破技术壁垒,促进全球开发者之间的协作与创新,还能推动技术的普惠化,让更多的 首先是基于单一提示词模板的聊天助手类应用,此阶段重点关注模型和提示词的安全性以及 模型输出的可控性。例如,garak 可用于检测模型幻觉、数据泄露和生成毒性内容等问题;rebuff 则针对提示词注入进行检测;DSPy 框架提供了系统高效的编程方法,帮助解决应用开发中的 提示编写问题;而 LMFormat Enforcer、Guidance 及 Outlines 等项目旨在帮助开发者控制 模型输出的结构,以获得高质量的输出。0 码力 | 111 页 | 11.44 MB | 8 月前3
中国开源软件产业研究报告OS 1999 IOS 2007 Android 2008 Windows Phone 2010 全球移动操作系统开/闭源情况 Oracle 1979 DB2 1983 SQL Server 1989 Access 1992 MySQL 1995 PostgreSQL 1996 MongoDB 2009 SQLite 2000 全球DBMS操作系统开/闭源情况 能够帮助云厂商进行平台及其上其他云产品 的推广和市场渗透,形成集聚效应,提升市场影响力。 主流数据库中开源产品占据核心地位,并在云平台上得到广泛应用 1 Oracle 2 MySQL 3 SQL Server 4 PostgreSQL 5 MongoDB 6 Redis 7 IBM Db2 8 Elasticsearch 9 Access 10 SQLite 提供托管MySQL服务的(部分)公有云 企业捐赠项目的意义 获得基金会资源和影响力加持,步入技术导向的开发路径 企业将项目捐赠给开源基金会意味着软件的知识产权转移到基金会名下。企业放弃该软件的私有著作权,换来的是开源基 金会的基础设施、资金、专家服务注入该项目,为项目带来知识产权/发行服务、基金会影响力加持、导师专业支持、开放 公平的发展模式等方面的优势。对于源作者企业而言,捐赠开源项目能够借助开源开发者能力以及基金会资源加速软件的 迭代和推广,将0 码力 | 68 页 | 3.63 MB | 1 年前3
2023 中国开源开发者报告它的核心在于研究人类如何与 LLM 更好地进行“沟通”, 找到让 LLM 能够准确理解人类意图的方法。提示词工程探 索如何以 LLM 可以解析的方式来表达需要它完成的任务, 寻找 LLM 的“最佳输入形式”。通过注入提示词,提示词 工程建立了一套“人机交互语法”,来更精准地向 LLM 传 达想要它生成何种输出的指令。这为人们与 LLM 之间建立 高效、准确的“沟通桥梁”提供了可能性。什么“链式思考 1 1 发展趋势。 所以,我对这次直播既觉得有趣,但又有点失望。 27 / 87 1 1 开源开发者事件回顾 PHP 市场份额超 7 成、CMS 中的王者 Next.js 支持在前端代码中写 SQL Chrome 支持运行 Java 等 GC 编程语言 2023 年 8 月,微软宣布推出集成到 Excel 中的 Python 公开预览版(Python in Excel),这项特性允许用户在无需进行任何配置的情况下,将流行 了「Python in Excel」项目,他负责架构制定方面的工作。 Next.js Conf 2023 展示的一张截图,里面的代码使用了名为「Server Actions」的特性:在前端代码中使用 SQL 语句直接操作数据库。其团队表 示,Server Actions 改进了开发者在编写数据变更方面的体验。但许多人表 示这是过去 24 小时内 Twitter 上最让人讨厌的图片。 微软将 Python0 码力 | 87 页 | 31.99 MB | 1 年前3
【彩页】202405 DataEase嵌入式版Datasheet通常傅况下,壤入式 Bl 拥有| 入场景,具体如下 国数据可视化与分析结果骸入: 包含单一国表谋入、仪表板页面和数据大屏 投入 图设计与编辑能力凡入: 包全仪表板/ 数据大屏设计器戏入、B| 功能模块注入; 国平台整体戏入: 包全数据接入到可视化分析的全流程支持、代码与接口的 开放性支持; 国其他嵌入: 与办公坎件对接,例如钉钉、企业敏售、飞书等,以及OEM 白 标定制。 DataEase 广入式版的优势体现在以下方面: 有效降低技术实现成本。 人 应用功能层 前技术层 平台API层 ataEase 开有下天可和化析平台 DataEase 购入式版支持多种方式的洲入: 图 图表嵌入: 衬单个图表/ 表格注入到系统中,辅押用户进行决 图仪表板/ 数据大屏谋入; 将设计好的仪表板 /数据大屏集成到第三方系统,支持通过传递参数过泪数据,同时支持联动、跳转、下钻、 过 下等自助式分析操作,快速增强业务系统的可视化分析能力;0 码力 | 2 页 | 3.02 MB | 1 年前3
全球开源发展态势洞察(2023年第八期)人工智能模型组开展最大规模的红队演习,AI Village和DEF CON希望能培养出处理人工智能 系统漏洞的研究者社区。事实证明,大语言模型 的锁定难度远超想象,部分原因在于所谓“提示 词注入”技术。人工智能研究员Simon Willison 详细介绍了提示词注入的危险,这种技术可以令 语言模型偏离正轨,执行创建者想要回避的操 作。在DEF CON大会期间,参与者将通过主办方 提供的笔记本电脑定时访问多个大语言模型。并 将0 码力 | 22 页 | 1.99 MB | 1 年前3
2021 中国开源年度报告是样本容 量问题,还是因为国内开源项目对华人发起的 Vue 情有独钟。 2021 中国开源年度报告 25 3.15 数据库 数据库使用情况中,不出意外地,MySQL 以绝对优势遥遥领先,SQL Server 与 Oracle 跟随其后。 专家点评 段夕华:Mysql 和 Postgres 的对比关系也有国内外差异,估计还是惯性使然 26 3.16 版本控制工具 毫无疑问的是,Git Finetuner, 它可以 让用户根据企业的独特需求对神经搜索系统进行调整。 图表 40 :Jina 产品矩阵 资料来源:Jina 官网 Jina AI 已经受到社区的积极认可,并且受到资本不断注入。自 2020 年 2 月成立至今,公司已经创建 了超过 1,000 个用户的大规模开发者社区。Jina 仅用了 18 个月的时间在 GitHub 上吸引了大量用户, GitHub stars 达到0 码力 | 132 页 | 14.24 MB | 1 年前3
2021 中国开源年度报告3.16 Database 数据库使用情况中,不出意外地,MySQL 以绝对优势遥遥领先,SQL Server 与 Oracle 跟 随其后。 Not surprisingly, MySQL leads the pack in terms of database usage, with SQL Server and Oracle trailing behind. 【专家点评】/ Jina product matrix 资料来源:Jina 官网 Source: Jina official website Jina AI 已经受到社区的积极认可,并且受到资本不断注入。自 2020 年 2 月成立至今,公司 已经创建了超过 1,000 个用户的大规模开发者社区。Jina 仅用了 18 个月的时间在 GitHub 上吸引了大量用户,GitHub stars 达到0 码力 | 199 页 | 9.63 MB | 1 年前3
Pro Git 中文版 第2版 2.1.66属性针对特定文件或路径,因此基 于 Git 属性的关键字展开无法仅根据文件反推出对应的提交)。 不过,我们可以在检出某个文件后对其注入文 本,并在再次提交前删除这些文本。 Git 属性提供了两种方法来达到这一目的。 一种方法是,你可以把文件所对应数据对象的 SHA-1 校验和自动注入到文件中的 $Id$ 字段。 如果在一个或多 个文件上设置了该属性,下次当你检出相关分支的时候,Git 会用相应数据对象的 gitattributes 文件中: *.txt ident 348 在一个测试文件中添加一个 $Id$ 引用: $ echo '$Id$' > test.txt 当你下次检出文件时,Git 将注入数据对象的 SHA-1 校验和: $ rm test.txt $ git checkout -- test.txt $ cat test.txt $Id: 42812b7653c7b88933f8 这个脚本从 git log 中得到最新提交日期,将其注入所有输入文件的 $Date$ 字段,并输出结果——你可以使 用最顺手的语言轻松实现一个类似的脚本。 把该脚本命名为 expand_date,放到你的可执行路径中。 现在, 350 你需要在 Git 中设置一个过滤器(就叫它 dater 吧),让它在检出文件时调用你的 expand_date 来注入时间戳,完成 smudge 操作。 暂存文件时的0 码力 | 501 页 | 19.30 MB | 1 年前3
Pro Git 中文版 第2版 2.1.66特定文件或路径,因此基于 Git 属性的关键字展开无法仅根据文件反推出对应 的提交)。 不过,我们可以在检出某个文件后对其注入文本,并在再次提交 前删除这些文本。 Git 属性提供了两种方法来达到这一目的。 一种方法是,你可以把文件所对应数据对象的 SHA-1 校验和自动注入到文件 中的 $Id$ 字段。 如果在一个或多个文件上设置了该属性,下次当你检出相关 分支的时候,Git 会用相应数据对象的 你的 .gitattributes 文件中: *.txt ident 在一个测试文件中添加一个 $Id$ 引用: $ echo '$Id$' > test.txt 当你下次检出文件时,Git 将注入数据对象的 SHA-1 校验和: $ rm test.txt $ git checkout -- test.txt $ cat test.txt $Id: 42812b7653c7b88933f8 这个脚本从 git log 中得到最新提交日期,将其注入所有输入文件的 $Date$ 字段,并输出结果——你可以使用最顺手的语言轻松实现一个类似的脚本。 把该脚本命名为 expand_date,放到你的可执行路径中。 现在,你需要在 Git 中设置一个过滤器(就叫它 dater 吧),让它在检出文件时调用你的 expand_date 来注入时间戳,完成 smudge 操作。 暂存文件时的 clean0 码力 | 670 页 | 13.59 MB | 1 年前3
人工智能安全治理框架 1.0(b)训练数据含不当内容、被 “投毒” 风险。训练数据中含有虚假、偏见、 侵犯知识产权等违法有害信息,或者来源缺乏多样性,导致输出违法的、不良 的、偏激的等有害信息内容。训练数据还面临攻击者篡改、注入错误、误导数 据的“投毒”风险,“污染”模型的概率分布,进而造成准确性、可信度下降。 (c)训练数据标注不规范风险。训练数据标注过程中,存在因标注规则 不完备、标注人员能力不够、标注错误等问题,不仅会影响模型算法准确度、0 码力 | 20 页 | 3.79 MB | 1 月前3
共 364 条
- 1
- 2
- 3
- 4
- 5
- 6
- 37













