【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502DeepSeek出现之前的十大预判 之一 传统AGI发展步伐在放慢 需要寻找新方向 Scaling Law边际效应递减 人类训练数据接近枯竭 合成数据无法创造新知识 推理能力难以泛化,成本高昂 全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判 之二 慢思考成为新的发展模式 大模型发展范式正在从「预训练」转向「后训练」和「推理时计算」 DeepSeek出现之前的十大预判 之八 智能体推动大模型快速落地 能够调用各种工具,具有行动能力 调用企业专业知识,更懂企业 将日常重复性业务流程形成Playbook,实现流程自动化 通过目标拆解,多次调用大模型以及专家模型协同,形成 慢思考能力 传统软件是辅助人的工具,Agent是能够自主工作的数字员工,是新的生产力政企、创业者必读 22 DeepSeek出现之前的十大预判 Law 大数据+大参数+大算力的 预训练Scaling Law的边际效应递减 • 人类构造的训练数据已达上限 • 万亿参数规模之后,继续增大参数规 模难以带来质的提升 • 训练算力成本和工程化难度大幅上升 强化学习Scaling Law • 利用合成数据解决数据用尽问题 • 利用self-play强化学习,在不增大参 数规模前提下,大幅提升复杂推理能力 • 通过后训练算力和推理算力,在不增加0 码力 | 76 页 | 5.02 MB | 5 月前3
国家人工智能产业综合标准化体系建设指南(2024版)1 国家人工智能产业综合标准化体系建设指南 (2024版) 为深入贯彻落实党中央、国务院关于加快发展人工智能 的部署要求,贯彻落实《国家标准化发展纲要》《全球人工 智能治理倡议》,进一步加强人工智能标准化工作系统谋划, 加快构建满足人工智能产业高质量发展和“人工智能+”高水 平赋能需求的标准体系,夯实标准对推动技术进步、促进企 业发展、引领产业升级、保障产业安全的支撑作用,更好推 进人工智能赋能新型工业化,特制定本指南。 一、产业发展现状 人工智能是引领新一轮科技革命和产业变革的基础性 和战略性技术,正成为发展新质生产力的重要引擎,加速和 实体经济深度融合,全面赋能新型工业化,深刻改变工业生 产模式和经济发展形态,将对加快建设制造强国、网络强国 和数字中国发挥重要的支撑作用。人工智能产业链包括基础 层、框架层、模型层、应用层等 4 个部分。其中,基础层主 彻党的二十大和二十届二中全会精神,认真落实中央经济工 作会议和全国新型工业化推进大会部署要求,完整、准确、 全面贯彻新发展理念,统筹高质量发展和高水平安全,加快 赋能新型工业化,以抢抓人工智能产业发展先机为目标,完 善人工智能标准工作顶层设计,强化全产业链标准工作协 同,统筹推进标准的研究、制定、实施和国际化,为推动我 国人工智能产业高质量发展提供坚实的技术支撑。 到 2026 年0 码力 | 13 页 | 701.84 KB | 1 年前3
清华大学第二弹:DeepSeek赋能职场For Culture & Art 文、图、乐、剧 Innovator For Social 智能角色交互体 Innovator For Science & Industry 行业大模型 基座大模型 人机协同 Chatbot •自然语言对话 Reasoner •基本的推理和问 题解决能力 Agent •代表用户执行任 务,具备自主行 动能力 Innovator • 参与发明和创造, 作 • 致力于人机协同和人机共生领域的世界级团队,专注于打造能够驾驭AI、熟悉AI并实现人类与AI共生发展的学术与实践模式。 团队愿景 • 李默非(清华大学人工智能学院拟录博士生):人机共生之基座大模型研究研发 • 何静(清华博士后、北航助理教授):人机共生之快生引擎研究研发 • 尤可可(清华博士后、北石化助理教授):人机共生之AIGC短视频 • 安梦瑶(清华大学博士后):人机共生之AI诊疗研究 强规范约束 (操作路径明确) 弱规范约束 (操作路径开放) Result (结果导向) 目标确定性高 (结果可预期) 目标开放性高 (结果多样性) Route (路径灵活性) 线性路径 (流程标准化) 网状路径 (多路径探索) Responsiveness (响应模式) 被动适配 (按规则执行) 主动创新 (自主决策) Risk (风险特征) 低风险 (稳定可控) 高风险 (不确定性高) (限定于文本生成任务)0 码力 | 35 页 | 9.78 MB | 8 月前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单高研院 助理教 授 清华大学新闻学院与人工智能学 院双聘教授 沈阳团队博士后 何静 能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现 对数据进行诊断、预测、关联、聚类分析,常用于问题 定位、需求预测、推荐系统、异常检测等。 对数据进行分类、社交网络分析或时序模式挖掘,常用 于客户细分、信用评分、社交媒体营销、股价预测等。 将数据转化为统计图、热力图、网络关系图、词云、树形 图等,用于揭示数据中蕴含的模式、趋势、异常和洞见。 本质:以多agent实现从数据采集到可视全流程 模型特点 Claude 3.5 sonnet 平衡性能:在模型大小和 性能之间取得平衡,适合 垂直领域优化:针对特定领域 (如医疗、法律)进行优化, 提供高精度结果。 长文本处理:擅长处理长文本 和复杂文档,适合专业场景。 定制化能力:支持用户自定义 训练和微调,适应特定需求。 Open AI o3 mini 小型化设计:轻量级模型, 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 然语言处理任务,如对话0 码力 | 85 页 | 8.31 MB | 8 月前3
Deepseek R1 本地部署完全手册存储: 5GB - 内存: 8GB (M1/M2/M3) - 存储: 5GB 简单⽂本⽣成、基础代 码补全 7B - RAM: 8-10GB - GPU: GTX 1680(4-bit量 化) - 存储: 8GB - 内存: 16GB(M2 Pro/M3) - 存储: 8GB 中等复杂度问答、代码 调试 14B - RAM: 24GB - GPU: RTX 3090(24GB 32B 壁彻算⼒平台+昇腾910B集群 科研计算与多模态处理 四、云端部署替代⽅案 1. 国内云服务商推荐 平台 核⼼优势 适⽤场景 硅基流动 官⽅推荐API,低延迟,⽀持多模态模型 企业级⾼并发推理 腾讯云 ⼀键部署+限时免费体验,⽀持VPC私有化 中⼩规模模型快速上线 PPIO派欧云 价格仅为OpenAI 1/20,注册赠5000万tokens 低成本尝鲜与测试 2. 国际接⼊渠道(需魔法或外企上⽹环境 DeepSeek-R1-UD- IQ1_M 158 GB ≥200 GB 消费级硬件(如Mac Studio) DeepSeek-R1-Q4_K_M 404 GB ≥500 GB ⾼性能服务器/云GPU 下载地址: HuggingFace模型库 Unsloth AI官⽅说明 2. 硬件配置建议 硬件类型 推荐配置 性能表现(短⽂本⽣成) 消费级设备 Mac Studio(192GB统⼀内存)0 码力 | 7 页 | 932.77 KB | 8 月前3
开源中国 2023 大模型(LLM)技术报告准备任务特定数据:收集与目标任务直接相关的 数据集,这些数据将用于微调模型; 3.微调训练:在任务特定数据上训练预训练的模型, 调整模型参数以适应特定任务; 4.评估:在验证集上评估模型性能,确保模型对新 数据有良好的泛化能力; 5.部署:将性能经验证的模型部署到实际应用中去。 微调的过程也是分类模型训练的过程 (图源:https://medium.com/mlearning-ai/what-is-a-fine- 持快速迭代和大规模部署。Amazon SageMaker、Google Cloud AI Platform 和 Microsoft Azure Machine Learning 都是提供端到 端机器学习服务的云平台。 这些工具和库专门为加速机器学习模型的训练和推理而设计,通常利 用 GPU 或 TPU 等硬件。这类工具可以显著提高训练和推理的速度, 使得处理大规模数据集和复杂模型变得可行。NVIDIA CUDA 具有一定的“认知能力和决策能力”。LLM Agent 的出现,标志着 LLM 从传统的模型训练和应用模式,转向以 Agent 为中心的智能化模 式。 LLM Agent 打破了传统 LLM 的被动性,使 LLM 能够主动学习和执行 任务,从而提高了 LLM 的应用范围和价值;它为 LLM 的智能化发展提 供了新的方向,使 LLM 能够更加接近于人类智能。 AutoGPT 就是一个典型的 LLM Agent。在给定0 码力 | 32 页 | 13.09 MB | 1 年前3
DeepSeek图解10页PDF以完全避免数据上 传至云端,确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调(Fine-tuning):可以根据特定业务需求对模 型进行微调,以适应特定任务,如行业术语、企业内部知识库等。 3. 离线运行,适用于无网络环境。可在离线环境下运行:适用于无互联网 连接或网络受限的场景。提高系统稳定性:即使云服务宕机,本地大模型依 然可以正常工作,不受外部因素影响。 本教程搭建 通用性更强。大模型和我们自己基于某个特定数据集(如 ImageNet、20News- Group)训练的模型在本质上存在一些重要区别。主要区别之一,大模型更 加通用,这是因为它们基于大量多样化的数据集进行训练,涵盖了不同领域 和任务的数据。这种广泛的学习使得大模型具备了较强的知识迁移能力和 多任务处理能力,从而展现出“无所不知、无所不晓”的特性。相比之下, 我们基于单一数据集训练的模型通常具有较强的针对性,但其知识范围仅 Scaling Laws 大家可能在很多场合都见到过。它是一个什么法则呢?大 模型之所以能基于大量多样化的数据集进行训练,并最终“学得好”,核 心原因之一是 Scaling Laws(扩展规律)的指导和模型自身架构的优势。 Scaling Laws 指出参数越多,模型学习能力越强;训练数据规模越大、越多 元化,模型最后就会越通用;即使包括噪声数据,模型仍能通过扩展规律提 取出通用的知识。而 Transformer0 码力 | 11 页 | 2.64 MB | 8 月前3
普通人学AI指南. . . . . . . 12 2.5.4 PromptHero . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.5.5 可视化 AI 提示语 . . . . . . . . . . . . . . . . . . . . . . . 12 2.5.6 Snack Prompt . . . . . . . . . . . . 1.2 Claude Claude 是 Anthropic 公司开发的一系列大型语言模型,它设计用于执行多种涉 及语言、推理、分析和编码的任务。 2.1.3 通义千问 通义千问(Qwen)是阿里云开发的一系列预训练的大型语言模型,用于聊天、 生成内容、提取信息、总结、翻译、编码、解决数学问题等多种任务。这些模型 在多种语言数据上进行预训练,包括中文和英文,覆盖广泛的领域。 2.2 图像 Figure 代码编辑器,旨在通过 AI 技术助力快速软件开发。 2.4.7 Tabby 自托管的 AI 编程助手,开源,支持开发人员优化编码过程。 2.4.8 Codeium 开源的 AI 编程工具,用于自动化代码生成和优化。 2.4.9 GitHub Copilot 由 GitHub 推出的开源 AI 编程助手,能够根据代码库提供编程建议和代码片 段。 10 2.4.10 通义灵码 阿里巴巴开发的开源编程工具,利用0 码力 | 42 页 | 8.39 MB | 8 月前3
DeepSeek从入门到精通(20250204)代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 02 01 03 文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 语义分析 语义解析 情感分析(评论、反馈) 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 限于模式识别和优化,缺乏真正的创新能力 能够生成新的创意和解决方案,具备创新能力 人机互动能力 按照预设脚本响应,较难理解人类情感和意图 更自然地与人互动,理解复杂情感和意图 问题解决能力 擅长解决结构化和定义明确的问题 能够处理多维度和非结构化问题,提供创造性的解 决方案 伦理问题 作为受控工具,几乎没有伦理问题 引发自主性和控制问题的伦理讨论 CoT链式思维的出现将大模型分为了两类:“概率预测(快速反应)”模型和“链式推理(慢速思考)”模型。0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 02 01 03 文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 语义分析 语义解析 情感分析(评论、反馈) 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 限于模式识别和优化,缺乏真正的创新能力 能够生成新的创意和解决方案,具备创新能力 人机互动能力 按照预设脚本响应,较难理解人类情感和意图 更自然地与人互动,理解复杂情感和意图 问题解决能力 擅长解决结构化和定义明确的问题 能够处理多维度和非结构化问题,提供创造性的解 决方案 伦理问题 作为受控工具,几乎没有伦理问题 引发自主性和控制问题的伦理讨论 CoT链式思维的出现将大模型分为了两类:“概率预测(快速反应)”模型和“链式推理(慢速思考)”模型。0 码力 | 103 页 | 5.40 MB | 8 月前3
共 14 条
- 1
- 2













