【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-2025027政企、创业者必读 8 AI不仅是技术革新,更是思维方式和社会结构的变革 国家 产业 个人 企业政企、创业者必读 人工智能发展历程(一) 从早期基于规则的专家系统,走向基于学习训练的感知型AI 从基于小参数模型的感知型AI,走向基于大参数模型的认知型AI 从擅长理解的认知型AI,发展到擅长文字生成的生成式AI 从语言生成式AI,发展到可理解和生成声音、图片、视频的多模态AI 我们对大模型发展趋势的十大预判 13政企、创业者必读 14 DeepSeek出现之前的十大预判 之一 传统AGI发展步伐在放慢 需要寻找新方向 Scaling Law边际效应递减 人类训练数据接近枯竭 合成数据无法创造新知识 推理能力难以泛化,成本高昂 全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判 之二 慢思考成为新的发展模式 大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」 大模型厂商都在探索慢思考、思维链技术政企、创业者必读 DeepSeek出现之前的十大预判 之三 模型越做越专 除了少数科技巨头,大多数公司都专注于做专业大模型 MoE架构盛行,本质是多个专家模型组成一个大模型 Deepmind的Alpha系列产品是这一趋势的最佳诠释 16政企、创业者必读 DeepSeek出现之前的十大预判 之四0 码力 | 76 页 | 5.02 MB | 5 月前3
2024 中国开源开发者报告大模型撞上“算力墙”,超级应用的探寻之路 36 | AI 的三岔路口:专业模型和个人模型 40 | 2024 年 AI 编程技术与工具发展综述 45 | RAG 的 2024:随需而变,从狂热到理性 51 | 大模型训练中的开源数据和算法:机遇及挑战 57 | 2024 年 AI 编程工具的进化 62 | AI 开发者中间件工具生态 2024 年总结 66 | AI Agent 逐渐成为 AI 应用的核心架构 Infinity-MM) 领 域贡献了大量有影响力的基础工作和资源。 2024 年,中国开源社区涌现出众多高质量的自发研究成果。其中,MAP 团队推出的全开 源模型 Map Neo 引人瞩目。该模型在训练数据、脚本以及模型对齐工作上实现了全面公开, 成为国内少有的真正意义上完全开源的项目。 22 / 111 而 InstantX 团队的 InstantID 则作为中国模型在国际开源社区的 2024 ChatGPT。8 个月以后 Meta 就与微软合作发布了开源大模型 LLaMA-2。这个赛道的主要玩家在技术和商业化上有差距, 但没有到翻盘无望的程度。 大模型赛道不但包括模型的训练,也包括模型服务。训练是软件的制作成本,而服 务是软件的长期运行成本。 大模型赛道的市场化程度非常高。算法、算力、数据、人才,这些构建大模型的基 础要素并不为权力机构垄断,大多要从市场上获得。 260 码力 | 111 页 | 11.44 MB | 8 月前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单Kimi k1.5 垂直领域优化:针对特定领域 (如医疗、法律)进行优化, 提供高精度结果。 长文本处理:擅长处理长文本 和复杂文档,适合专业场景。 定制化能力:支持用户自定义 训练和微调,适应特定需求。 Open AI o3 mini 小型化设计:轻量级模型, 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 知网研学平台 斯坦福STORM 数据来源 依托真实且可靠的学术数据库, 确保文献数据的准确性与可信 度,为综述内容的真实性提供 坚实保障 涵盖全球科技论文、专利文献、 科学数据、学位论文、预印本、 图书专著及开放资源 中国知网数据库,涵盖海量的 中文文献 通过必应搜索引擎收集数据, 确保来源的广泛性,但主要依 赖互联网主流来源,可能包含 推广内容,需进一步筛选和验 证 文本类型 日 2 0 2 4 年 1 2 月 2 6 日 发 布 总 参 数 达 6 7 1 0 亿 的 D e e p S e e k - V 3 , 采 用 创 新 MoE架构和FP8混合精度训练, 训练成本大幅降低 DeepSeek是一家专注通用人工智能(AGl)的中国科技公司,主攻大模型研发与应用。 DeepSeek-R1是其最新发布并开源的推理模型,擅长处理复杂任务且可免费商用,其性能0 码力 | 85 页 | 8.31 MB | 8 月前3
DeepSeek图解10页PDFTransformer 基础架构 . . . . . . . . . . . . . . . . . . . . . . 6 2.3 LLM 基本训练方法 . . . . . . . . . . . . . . . . . . . . . . . . 7 2.3.1 预训练(Pretraining) . . . . . . . . . . . . . . . . . . 7 2.3.2 监督微调(Supervised 1 DeepSeek-R1 完整训练过程 . . . . . . . . . . . . . . . . . . . 7 3.1.1 核心创新 1:含 R1-Zero 的中间推理模型 . . . . . . . 8 3.1.2 核心创新 2:通用强化学习 . . . . . . . . . . . . . . . 8 3.2 含 R1-Zero 的中间推理模型训练过程 . . . . . . . . . . . . . . 9 3.3 通用强化学习训练过程 . . . . . . . . . . . . . . . . . . . . . . 10 3.4 总结 DeepSeek-R1 . . . . . . . . . . . . . . . . . . . . . . . . 11 4 参考文献 . . . . . . . . . . . . . . . . . . . .0 码力 | 11 页 | 2.64 MB | 8 月前3
普通人学AI指南与专用人工智能(AI)不同,AGI 能够执行任何智力任务,具备自我意识和 自适应学习能力。AGI 的研发目标是创造出可以广泛地模拟人类认知能力的智 能系统。 1.3 大模型 大模型通常指的是大规模的人工智能模型,这类模型通过训练大量的数据来获 得广泛的知识和能力。这些模型通常具有庞大的参数数量,能够处理复杂的任 务,如自然语言理解、图像识别、语音识别等。 闭源大模型包括 OpenAI 的 GPT 系列和 Google 的 BERT。这些模型因其 的缩写,表示万亿。在 AI 大模型 中,”T” 常用来表示模型在训练中处理的 Token 数量。Token 是指模型处理的 基本单元,可以是一个单词、子词,或者字符等。 在大规模预训练语言模型的训练中,通常会提到模型是在多少个 Token 上 进行学习的,以表明模型的训练规模和数据量。例如:LLaMA3 语言模型使用 了超过 15T 个 token 进行训练。 2 AI 工具梳理 大家有没有觉得 AI 工 问答工具 ChatGPT 经过特别训练,可以理解和生成人类语言,从而在多种应用场景中提 供辅助,包括聊天机器人、写作辅助、信息查询等。 2.1.2 Claude Claude 是 Anthropic 公司开发的一系列大型语言模型,它设计用于执行多种涉 及语言、推理、分析和编码的任务。 2.1.3 通义千问 通义千问(Qwen)是阿里云开发的一系列预训练的大型语言模型,用于聊天、 生成内容0 码力 | 42 页 | 8.39 MB | 8 月前3
清华大学 普通人如何抓住DeepSeek红利DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正 式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大 提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAl-o1正式版。 (Pass@1) 强化共情:增加“我知道现在项目关键期,非常抱歉给您添麻烦”。 • 弱化模糊表述:将“家里有事”改为“家人突发重病需陪护”,避免领导误解为小事。 • 明确行动:补充“请假期间可随时联系我处理紧急问题”。 3. 预判领导反应并准备预案(用AI模拟问答) p 操作:输入:“如果领导说‘项目缺了你不行,能不能缩短假期?’如何回应?” p AI建议回应: • 共情+底线+替代方案: “我完全理解项目的重要性,但家人目 同事代为参与, 那么家庭活动可以优先考虑。 与相关方(上级、同事)迅速沟通,争取灵活处理会议安排。 缓解工作压力和失眠: 中短期内:失眠和压力会影响你的整体表现和健康。可以安排一些时间做放松 训练、适量运动、或者短暂休息。必要时安排咨询,调整心态。 制定健康改善计划: 中期计划:针对体脂率问题,制定一个可行的锻炼和饮食计划,让健康改善成 为你日常生活的一部分,不必急于求成,而是稳步前进。0 码力 | 65 页 | 4.47 MB | 8 月前3
DeepSeek从入门到精通(20250204)调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像 推理模型那样复杂的推理和决策能力。 维度 推理模型 通用模型 优势领域 数学推导、逻辑分析、代码生成、复杂问题拆解 文本生成、创意写作、多轮对话、开放性问答 劣势领域 发散性任务(如诗歌创作) 需要严格逻辑链的任务(如数学证明) 性能本质 专精于逻辑密度高的任务 擅长多样性高的任务 强弱判断 并非全面更强,仅在其训练目标领域显著优于通用模型 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI o1) 性能表现 响应速度快,算力成本低 慢速思考,算力成本高 运算原理 基于概率预测,通过大量数据训练来快速预测可能 的答案 基于链式思维(Chain-of-Thought),逐步推理 问题的每个步骤来得到答案 决策能力 依赖预设算法和规则进行决策 能够自主分析情况,实时做出决策 创造力 限于模式识别和优化,缺乏真正的创新能力 利益相关者沟通计划(1800字内):设计一个定期向各利益相关者(如高管、 合作伙伴、媒体)汇报项目进展的机制。指明沟通频率、方式和关键信息点。 11. 应急预案(1000字内):为2—3个可能的重大意外情况(如重要环节延期、预 算超支、负面舆情等)制定详细的应急预案。包括触发条件、响应流程和补救措施。 12. 执行后评估机制(700字内):设计一个项目后评估框架,包括效果评估、经 验总结和持续优化建议。指明评估的时间点和主要维度。0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像 推理模型那样复杂的推理和决策能力。 维度 推理模型 通用模型 优势领域 数学推导、逻辑分析、代码生成、复杂问题拆解 文本生成、创意写作、多轮对话、开放性问答 劣势领域 发散性任务(如诗歌创作) 需要严格逻辑链的任务(如数学证明) 性能本质 专精于逻辑密度高的任务 擅长多样性高的任务 强弱判断 并非全面更强,仅在其训练目标领域显著优于通用模型 全局视野 概率预测(快速反应模型,如ChatGPT 4o) 链式推理(慢速思考模型,如OpenAI o1) 性能表现 响应速度快,算力成本低 慢速思考,算力成本高 运算原理 基于概率预测,通过大量数据训练来快速预测可能 的答案 基于链式思维(Chain-of-Thought),逐步推理 问题的每个步骤来得到答案 决策能力 依赖预设算法和规则进行决策 能够自主分析情况,实时做出决策 创造力 限于模式识别和优化,缺乏真正的创新能力 利益相关者沟通计划(1800字内):设计一个定期向各利益相关者(如高管、 合作伙伴、媒体)汇报项目进展的机制。指明沟通频率、方式和关键信息点。 11. 应急预案(1000字内):为2—3个可能的重大意外情况(如重要环节延期、预 算超支、负面舆情等)制定详细的应急预案。包括触发条件、响应流程和补救措施。 12. 执行后评估机制(700字内):设计一个项目后评估框架,包括效果评估、经 验总结和持续优化建议。指明评估的时间点和主要维度。0 码力 | 103 页 | 5.40 MB | 8 月前3
TVM工具组绝赞招聘中 TVM CAFFE 前端 2019·11·16绝赞招聘中 TVM 在平头哥 • 工具链产品 平头哥芯片平台发布的配套软件中, TVM 是工具链产品的重要组成部分: 负责将预训练好的 caffe 或者 tensorflow 的模型,转换到 LLVM IR,最后生成可以在无剑 SoC 平台上 执行的二进制。绝赞招聘中 为何添加 caffe 前端? 客户需求 评估0 码力 | 6 页 | 326.80 KB | 5 月前3
人工智能安全治理框架 1.0善。 2.1 安全风险方面。通过分析人工智能技术特性,以及在不同行业领域 应用场景,梳理人工智能技术本身,及其在应用过程中面临的各种安全风险 隐患。 2.2 技术应对措施方面。针对模型算法、训练数据、算力设施、产品服务、 应用场景,提出通过安全软件开发、数据质量提升、安全建设运维、测评监测 加固等技术手段提升人工智能产品及应用的安全性、公平性、可靠性、鲁棒性- 3 - 人工智能安全治理框架 手段,推动各方协同共治。 2.4 安全开发应用指引方面。明确模型算法研发者、服务提供者、重点 领域用户和社会公众用户,开发应用人工智能技术的若干安全指导规范。 3. 人工智能安全风险分类 人工智能系统设计、研发、训练、测试、部署、使用、维护等生命周期 各环节都面临安全风险,既面临自身技术缺陷、不足带来的风险,也面临不当 使用、滥用甚至恶意利用带来的安全风险。 3.1 人工智能内生安全风险 3.1.1 模型算法安全风险 (a)可解释性差的风险。以深度学习为代表的人工智能算法内部运行逻 辑复杂,推理过程属黑灰盒模式,可能导致输出结果难以预测和确切归因,如 有异常难以快速修正和溯源追责。 (b)偏见、歧视风险。算法设计及训练过程中,个人偏见被有意、无意引入, 或者因训练数据集质量问题,导致算法设计目的、输出结果存在偏见或歧视, 甚至输出存在民族、宗教、国别、地域等歧视性内容。 (c)鲁棒性弱风险。由于深度神经网络存在非线性、大规模等特点,人0 码力 | 20 页 | 3.79 MB | 1 月前3
共 62 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













