2024 中国开源开发者报告团队“出海”,积极融入和参与全球人 工智能生态,勇于在全球市场发声,通过开放协作推动技术边界的不断拓展,共同构建一个更加 包容、多元与可持续发展的人工智能的未来。 Tiezhen 现任 Hugging Face 工程师,曾在 Google Brain 任职。兼具实干精 神与梦想追求,坚信开源是连接全球的纽带,让 AI 的益处普惠大众。 他秉持"高手在民间"的理念,渴望激励更多的开源模型从业者成为行业 的关 如何尽可能降低成本, 28 / 111 比对手坚持得更久一些是确保长期成功的必要条件。现在的宏观环境下,一味靠融资来支撑自己 的高成本支出不是长久之计。 闭源大模型厂商必须维持一定的云资源,工程师资源来支撑小额的开发者调试需求。投入产 出上恐怕是算不过来的。即便闭源厂商愿意持续地补贴开发者,他们最终会发现大模型对开发者 的粘性也非常有限,没比在 C 端用户那边好到哪里去。 大模型这一 模型能力达到门槛,专业模型将带来很高的附加值。 2024 年,专业模型已经在很多领域落地。例如,AI 辅助编程可以提升开发效率一倍以上, 仅用每月数十美元的 API 调用成本,就相当于每月上万美元的工程师。AI 生成图片、播客、直 播等,可以上百倍提升画师、配音员、主播的工作效率。AI 在心理、法律、医疗等领域的咨询 服务可达到初级专业人士水平,每小时收费相比模型成本也高上百倍。AI 虚拟外教已经可以媲0 码力 | 111 页 | 11.44 MB | 8 月前3
2021 中国开源年度报告10 1 报告背景 …………………………………………………………………………………… 11 2 重要发现 …………………………………………………………………………………… 11 3 受访者群体特征 …………………………………………………………………………… 13 3.1 受访者年龄 & 性别 ………………………………………………………………………………… 13 3.2 受访者从业时间 … 开源社区的交流方式 ……………………………………………………………………………… 33 4.7 开源社区中重要的角色 …………………………………………………………………………… 34 4.8 一个项目的哪些特征对于您留下成为项目贡献者的重要度评级 ……………………………… 35 4.9 开源项目是否集成 RPA(机器人流程自动化) ………………………………………………… 36 4.10 开源活动 … 年,今年的问卷参与者中,还未工作的人群占了绝大部分,从参与者从事领 12 域和职位分布也可以看出,这些“还未工作”人群多数指向学生群体,这和当前社会普遍 追求更高学历深造有关。 公司在购买开源产品时,多由工程团队负责人(技术总监 / 架构师 /TL)来进行产品的选择, 而且在同类型软件的购买中,半数的人会考虑软件供应商对开源社区的贡献,但不是主要 的考虑因素,只有在产品性能差别不大时,才会选择对开源社区贡献大的供应商。0 码力 | 132 页 | 14.24 MB | 1 年前3
网易数帆 领先的数字化转型技术与服务提供商 2021Kubernetes 一致性认证 华为鲲鹏计算兼容性测试认证 大数据技术机构资质 信通院大数据技术标准推进委员会成员 大数据系统软件浙江省工程实验室 浙江省网易大数据重点企业研究院 浙江省云计算和大数据省级企业研究院 人工智能技术机构资质 浙江省增强现实与智能交互工程技术研究中心 省级组织资质 浙江省重点企业研究院 浙江省企业技术中心 云计算技术机构资质 工信部云计算服务能力标准首批试点单位 任务上线 数据服务中心 智能BI 数据准备 大屏 自助取数 移动应用 数据填报 全渠道 数据融合 会员 标签管理 用户分群 营销 活动管理 投放数据 追踪 活动数据 分析 特征治理 模型管理 交互式建模 可视化建模 在线推理 图分析 标签管理 画像分析 群组管理 API管理 支持数据产品研发 无代码平台,与 BI 、数据填报、复杂报 表、智能决策深度融合。 模型开发、训练、调度可视化管控,内置 100+算子,支持模型一键式部署,降低 AI建模门槛。 AutoML 支持端到端 AutoML,自动化完成特征 治理、参数寻优、模型筛选流程,智能化 加速数据价值产出。 全流程管控 一站式覆盖数据导入、特征治理、模型 开发、模型训练、推理服务建模全流程, 提升 AI 建模效率。 轻量化、低成本 支持云原生架构,支持私有化部署,多形 态交付,按需扩展0 码力 | 43 页 | 884.64 KB | 1 年前3
2021 中国开源年度报告students, which is related to the current society's general pursuit of higher education. 公司在购买开源产品时,多由工程团队负责人(技术总监 / 架构师 /TL)来进行产品的选 择,而且在同类型软件的购买中,半数的人会考虑软件供应商对开源社区的贡献,但不是 主要的考虑因素,只有在产品性能差别不大时,才会选择对开源社区贡献大的供应商。 measuring project activity, health, influence, and developer activity and contributions. 3、受访者群体特征 / 3 Respondent group characteristics 3.1 受访者年龄 & 性别 / 3.1 Respondents' age & gender 受访者的年龄集中在 20-39 杨丽蕴:我国开源人才后备力量足、基数大。 我国高校越来越重视开源人才的培养,越来 越多的学生参与到开源开发中,开源人才培养周期前置,越来越多的学校开设开源课程, 希望后续可以实现在学习计算机、编译原理、软件工程等理论知识的同时,让学生学习掌 握开源开发模式、理解认同开源文化。 Yang Liyun: China's open source talent reserve is sufficient; the0 码力 | 199 页 | 9.63 MB | 1 年前3
2023年中国基础软件开源产业研究白皮书企业开发者旨在实现商业收益,选取优秀开源代码,并根据自身的行业Knowhow,在其上二次开发产出定制化的行业发行版本。 来源:根据专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 两类开源开发者行为差异 参与开源目的 代码贡献特征 付费意愿 平台权益 个人开发者 企业开发者 出于兴趣或求知欲进入 开源社区,希望学习社 区内优秀代码,并与 “大神”交流 以商业视角出发,希望 通过对开源项目的二次 开发形成开源软件的行 业发行版,实现商业收 www.iresearch.com.cn 中国开源数据库开发者特征 开发者对数据库内核贡献较少,主要围绕提升应用层适配进行二次开发 中国开源数据库开发者主要有两类特征。第一,对数据库的核心优化贡献较弱,更多基于国内开源版数据库,在应用场景适配、二 次定制开发的圈层进行开发活动。第二,国内开源数据库大多基于海外数 大公约数,而国内开发者社区比较分散。因此,自研内核数据库社区更容易吸引硬核开发者的加入,长期来看将在社区能力值、成 长性及活跃度方面得到体现。 来源:根据专家访谈、公开资料,由艾瑞咨询研究院自主研究及绘制。 数据库开发者开源贡献特征 数据库指标提升 响应时间 并发能力 吞吐量 … 性能 数据备份 数据恢复 故障切换 … 可靠性 编程语言 系统接口 … 兼容性 存储 引擎 数据库内核 修改计算引擎支0 码力 | 43 页 | 4.69 MB | 1 年前3
中国开源软件产业研究报告献者,目前已经对 外开源的项目包含OpenHarmony、OpenGauss等。其中,OpenHarmony是华为于2020年开源的分布式操作系统,采用 了组件化设计方案,可根据设备的资源能力和业务特征进行灵活裁剪,满足不同形态的终端设备对于操作系统的要求,可 适应各类智能设备;OpenGauss是华为于2019年开源的数据库产品,内核源自PostgreSQL,采用木兰宽松许可证v2,具 备高性能 www.iresearch.com.cn 中国开源社区平台 从幼稚走向成熟,呈现出繁荣多元的特征和整合规范趋势 开源社区的发展需要经历触发期、发展期、协作期、结晶期与流行期五个阶段,中国的开源社区平台大多处于前三个阶段, 仅有极少数开启了商业化良性互动。中国开源社区平台有以下四种形式:1)开发者社区,代表有技术交流社区CSDN、 要求公开衍生软件源代码为由, 向法院起诉被告侵害原告的软件 著作权 使用且未公开源代码 开源作者起诉 作者开发并开源 原告企业独立研发了一款软件B 并按照GPL 3.0协议进行开源,根 据该协议的传染性特征,商业化 发布该软件需要公开源代码 • 本案的法院判决(部分):被告立即停止侵害原告著作权的行为,即对使用开源代码的软件立即停止提供下载、 安装和运营服务;被告赔偿原告经济损失及维权合理费用共计50万元0 码力 | 68 页 | 3.63 MB | 1 年前3
2020 中国开源年度报告
,⼤家对此抱有多重期望:推⼴开源的理念,开源⽂化 教育和社区建设,建⽴开源⽣态体系,对开源项⽬进⾏早期的孵化和扶持,帮助中国开源 社区进⾏资源的整合和优化,并接轨国际开源社区。 3、开发者群体特征 3.1 参与者普遍年轻且学历较⾼,男性占⽐⼋成 参与者的年龄集中在 20-39岁,受教育程度普遍在本科及以上,其中男性占⽐约为 84%,⼥ 性为 16%,与去年持平。 【专家点评】 刘天 我们计算了所有源⾃中国的共计 21 个 ASF 项⽬仓库的活动情况,数据如下。 我们统计了所有源⾃中国的 ASF 项⽬仓库的⼯作时间情况,并为每个仓库绘制了⼯作时间分 布图。在此,我们选择三个⼯作时间分布有明显特征的项⽬进⾏简单分析。 apache/carbondata,Apache CarbonData 是⼀种新的融合存储解决⽅案,利⽤先进 的列式存储、索引、压缩和编码技术提⾼计算效率,从⽽加快查询速度,其查询速度⽐ 的项⽬仓库的活动情况,数据如下: 。 我们统计了 LF AI&Data 项⽬仓库的⼯作时间情况,为每个仓库绘制了图表。在此,我们选择 3 个项⽬进⾏分析。 milvus-io/milvus,Milvus 为海量特征向量的近似最近邻搜索(ANNS)⽽设计。相⽐ Faiss 和 SPTAG 这样的算⼦库,Milvus 提供完整的向量数据更新,索引与查询框架。 Milvus 利⽤ GPU(Nvidia)进⾏索引加速与查询加速,能⼤幅提⾼单机性能。0 码力 | 46 页 | 4.09 MB | 1 年前3
2023 中国开源开发者报告一个新的细分领域“LLMOps”。 七、 “提示词工程”,这是 LLM 直接催生出来的新“学科”, 它的核心在于研究人类如何与 LLM 更好地进行“沟通”, 找到让 LLM 能够准确理解人类意图的方法。提示词工程探 索如何以 LLM 可以解析的方式来表达需要它完成的任务, 寻找 LLM 的“最佳输入形式”。通过注入提示词,提示词 工程建立了一套“人机交互语法”,来更精准地向 LLM 传 高效、准确的“沟通桥梁”提供了可能性。什么“链式思考 1 1 (CoT)”、“自动推理并使用工具(ART)”、“思维 树(ToT)”……甚至运用心理学对 LLM 进行“情绪提 示(EmotionPrompt)”,提示词工程俨然在将 LLM 一 点一点解剖,试图让人类成为可以将其掌控的“咒术师”。 八、 AutoGPT 的出现,带着 LLM Agent 的概念进入 LLM 发展的新阶段。LLM Agent 是一种基于 但回过头来想想,这个话题可深可浅,往浅了说,当前 LLM 产品可以帮助人类翻译、润色一段文字、提炼论文核心内容, 这本身也是较为完整的解决方案;当前 LLM Agent、 LLMOps,甚至只是说开发者的各种“工程化组合骚操作”, 实际上已经可以把不同模型、不同模态、不同工具和知识源整 合,正是在往“提供更完整的解决方案”这一方向上的发展。 1 1 往深了说,或许这本质上就是在要求 AGI,而它是一个更0 码力 | 87 页 | 31.99 MB | 1 年前3
全球开源发展态势洞察(2023年第八期)Prometheus是一个开源的系统监控和报警系统, 受启发于Google的Brogmon监控系统(相似的 Kubernetes是从Google的Brog系统演变而来), 从2012年开始由前Google工程师在Sound- cloud以开源软件的形式进行研发,于2015年 早期对外发布早期版本。2016年5月,继 Kubernetes之后成为第二个正式加入CNCF基金 会的项目,同年6月正式发布1.0版本。2017年 法律合规性、可扩展性等。 案例分享:全国首例GPL抗辩获得支持案i 05 开源法律速递 全球开源态势洞察|第十期 09 基本案情: 判决要点: 原告未来公司认为被告云蜻蜓公司的“南京工程版投标工具”软件在功能及实现上与原告软件 构成实质性相似,被告软件中的配置文件及代码中特有的部分标识、客户名称简称、程序文件 的GUID以及拼写上的很多明显错误等与原告软件完全一致,故以著作权侵权为由向法院提起诉 / TiKV / Codis的 作者,曾任职豌豆荚/京东,擅长分 布式数据库和分布式缓存。 黄东旭 联合创始人 兼CTO 开源分布式缓存服务Codis 的作者,资深infrastructure 工程师,开源狂热分子。 崔秋 联合创始人 开源爱好者。 开源项目梳理 项目名称 项目开源 时间 技术领域 项目归属 托管平台 GitHub 信息 开源 许可证 2015年开源 分布式HTAP0 码力 | 22 页 | 1.99 MB | 1 年前3
Moonshot AI 介绍AIRL联创及负责⼈John Schulman亲⾃邀请加盟。 iv. 基础设施⽅⾯。团队核⼼成员曾带领数⼗⼈从零开发世界领先的深度学习框架,也具备数千 卡集群全⾃动化硬件运维告警、数百亿特征检索、⼤规模(数⼗PB数据、百万台机器)分 布式系统数量级性能优化的经验。 c. ⽬前团队⼈数超过80⼈,每个⽉都有在全球某个领域有显著影响⼒的⼈加⼊。 2.团队聚焦底层技术创新,技术Vision强 ⽂窗⼝的处理。 除此之外,我们采⽤了⽆损压缩技术,所以使得说在处理很⻓的上下⽂的同时,也能够保证信息处理 的准确性,不会出现像lostinthemiddle(某些中间层数据没有学到有效的特征表⽰)的问题,就不 管你的答案是出现在开头、中间、结尾,还是说需要融合不同的⽂档位置的问题进⾏回答,都可以给 出准确的答案。 我们的⽤⼾和我们共创了很多新玩法。举⼀个⾮常有意思的例⼦,我们有⼀个做投资⾏业的朋友,他 ⼀个被⼴泛使⽤的视觉开源项⽬并被集成到Meta全线VR/AR产品中。 在基础设施⽅⾯,团队核⼼成员曾带领数⼗⼈从零开发世界领先的深度学习框架,也具备数千卡集群 全⾃动化硬件运维告警、数百亿特征检索、⼤规模(数⼗PB数据、百万台机器)分布式系统数量级性 能优化的经验。 在强化学习⽅⾯,团队成员作为⼀作提出了基于关系学习的少样本⽅法,得到斯坦福⼤学、Google、 MIT、Amazon0 码力 | 74 页 | 1.64 MB | 1 年前3
共 11 条
- 1
- 2













