【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502国内:大模型「亏本」卖,可以「白嫖」大模型API能力 19政企、创业者必读 DeepSeek出现之前的十大预判 之七 多模态越来越重要 由文本生成迈向图像、视频、3D内容与世界模拟 多模态模态在能力变强的同时,规模正在变小 20政企、创业者必读 21 DeepSeek出现之前的十大预判 之八 智能体推动大模型快速落地 能够调用各种工具,具有行动能力 调用企业专业知识,更懂企业 将日常重复 预训练Scaling Law的边际效应递减 • 人类构造的训练数据已达上限 • 万亿参数规模之后,继续增大参数规 模难以带来质的提升 • 训练算力成本和工程化难度大幅上升 强化学习Scaling Law • 利用合成数据解决数据用尽问题 • 利用self-play强化学习,在不增大参 数规模前提下,大幅提升复杂推理能力 • 通过后训练算力和推理算力,在不增加 预训练算力前提下,大幅提升模型性能 闭源云端通用大模型功能强大 但在政府企业场景中使用存在若干问题 训练知识为网上通用,缺少政府和企业内部知识,不懂业务,无 法解决实际问题 闭源模型云端部署,使用过程中数据外传上网,存在泄密风险 闭源模型规模庞大,无法为企业进行定制,无法本地部署 成本高昂,一般企业难以负担 50政企、创业者必读 不追求用一个大模型解决企业所有问题,而是找垂直场景,做专业技能大模型 • 政府和企业不需要全能博士,需要管培生0 码力 | 76 页 | 5.02 MB | 6 月前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单DeepSeek+DeepResearch 让科研像聊天一样简单 北京航空航天大学 高研院 助理教 授 清华大学新闻学院与人工智能学 院双聘教授 沈阳团队博士后 何静 能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 图等,用于揭示数据中蕴含的模式、趋势、异常和洞见。 本质:以多agent实现从数据采集到可视全流程 模型特点 Claude 3.5 sonnet 平衡性能:在模型大小和 性能之间取得平衡,适合 中等规模任务。 多模态支持:支持文本和 图像处理,扩展应用场景。 可解释性:注重模型输出 的可解释性和透明性。 DeepSeek R1 高效推理:专注于低延迟和 高吞吐量,适合实时应用。 大家有空还可以对我的提示词进行改进,围绕四个方面。我们需要建立 一套研究提示词集。 AI for research 提示词集。 三 效果如何? 元知AI综述工具 元知是国内由清华、北航专家团队研发的一个AI学术平台,目前其AI综述生成工具已开放使用,能够帮助用户从海 量文献中提取核心信息,通过自然语言处理算法,实现从文献梳理到观点提取到研究评论的一键式全自动生成。 产品 概况 功能亮点0 码力 | 85 页 | 8.31 MB | 8 月前3
Deepseek R1 本地部署完全手册R1 是⽀持复杂推理、多模态处理、技术⽂档⽣成的⾼性能通⽤⼤语⾔模型。本⼿册 为技术团队提供完整的本地部署指南,涵盖硬件配置、国产芯⽚适配、量化⽅案、云端替代⽅ 案及完整671B MoE模型的Ollama部署⽅法。 核⼼提示: 个⼈⽤户:不建议部署32B及以上模型,硬件成本极⾼且运维复杂。 企业⽤户:需专业团队⽀持,部署前需评估ROI(投资回报率)。 ⼆、本地部署核⼼配置要求 1. 模型参数与硬件对应表 3090(24GB VRAM) - 存储: 20GB - 内存: 32GB(M3 Max) - 存储: 20GB 复杂推理、技术⽂档⽣ 成 32B+ 企业级部署(需多卡并联) 暂不⽀持 科研计算、⼤规模数据 处理 2. 算⼒需求分析 模型 参数规 模 计算精 度 最低显存需 求 最低算⼒需求 DeepSeek-R1 (671B) 671B FP8 ≥890GB 2*XE9680(16*H20 四、云端部署替代⽅案 1. 国内云服务商推荐 平台 核⼼优势 适⽤场景 硅基流动 官⽅推荐API,低延迟,⽀持多模态模型 企业级⾼并发推理 腾讯云 ⼀键部署+限时免费体验,⽀持VPC私有化 中⼩规模模型快速上线 PPIO派欧云 价格仅为OpenAI 1/20,注册赠5000万tokens 低成本尝鲜与测试 2. 国际接⼊渠道(需魔法或外企上⽹环境 ) 英伟达NIM:企业级GPU集群部署(链接)0 码力 | 7 页 | 932.77 KB | 8 月前3
开源中国 2023 大模型(LLM)技术报告 插件、IDE、终端 代码生成工具 编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心,随着大规模语言数据集的可用性和计算能 力的提升,研究者们开始设计更大规模的神经网络,以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM 技术的飞速发展,其预训练和微调的 Chroma:已融资 Qdrant:已融资 Marqo:已融资 LanceDB:已融资 …… 据西南证券研究发展中心预测,2025 年向量数据库渗透率约 为 30%,则全球向量数据库市场规模约为 99.5 亿美元, 。 2023 年前四个月,向量数据库公司融资额 ,超过了 2022 年的总和 (图源:https://www.cbinsights.com/research/gen 供了 必要的工具和库,使开发者能够更容易地处理大量的数 据、管理巨大的网络参数量,并有效地利用硬件资源。 微调(Fine Tuning)是在大模型框架基础上进行的一个 关键步骤。在模型经过初步的大规模预训练后,微调是 用较小、特定领域的数据集对模型进行后续训练,以使 其更好地适应特定的任务或应用场景。这一步骤使得通 用的大型模型能够在特定任务上表现出更高的精度和更 好的效果。 大模型框架提供了0 码力 | 32 页 | 13.09 MB | 1 年前3
DeepSeek图解10页PDF模型之所以能基于大量多样化的数据集进行训练,并最终“学得好”,核 心原因之一是 Scaling Laws(扩展规律)的指导和模型自身架构的优势。 Scaling Laws 指出参数越多,模型学习能力越强;训练数据规模越大、越多 元化,模型最后就会越通用;即使包括噪声数据,模型仍能通过扩展规律提 取出通用的知识。而 Transformer 这种架构正好完美做到了 Scaling Laws, Transformer 良好的可扩展性:可适配更大规模模型训练,增强 AI 泛化能力。 教程作者:郭震,工作 8 年目前美国 AI 博士在读,公众号:郭震 AI,欢迎关注获取更多原创教程。资 料用心打磨且开源,是为了帮助更多人了解获取 AI 知识,严禁拿此资料引流、出书、等形式的商业活动 2.3 LLM 基本训练方法 2.3.1 预训练(Pretraining) LLM 训练通常采用大规模无监督学习,即:1. 从互联网上收集大量文本数 直接训练而成,完全跳过了监督微调(SFT),如下图8所示,只在强化学习 的冷启动阶段使用了 SFT。 图 8: Interim reasoning model 训练方法 大规模推理导向的强化学习训练,必不可少的就是推理数据,手动标注就 太繁琐了,成本昂贵,所以 DeepSeek 团队为了解决这个问题,训了一个 R1-Zero 模型,这是核心创新。 R1-Zero 完全跳过 SFT(监督微调)阶段,直接使用强化学习训练,如下0 码力 | 11 页 | 2.64 MB | 8 月前3
清华大学 普通人如何抓住DeepSeek红利清华大学新闻与传播学院 新媒体研究中心 元宇宙文化实验室 @新媒沈阳 团队 : 陶炜博士生 普通人如何抓住DeepSeek红利 p Deepseek是什么? p Deepseek能够做什么? ——在工作、学习、生活和社会关系中解决问题 p 如何提问?让AI一次性生成你想要的东西 卷不动了?DeepSeek帮你一键“躺赢”! 学习太难?DeepSeek带你“开挂”逆袭! 的中国科技公司,主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型,擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正 式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大 提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAl-o1正式版。 (Pass@1) 通过快速、准确的响应,客户会感受到你的专业性和效率,从而提升对你的信任和满意度。 场景3:日常客户沟通与问题反馈处理 场景4:项目中急需请假 如何开口 场景:你负责的项目正处于关键阶段(如产品上线前一周),团队每天加班。此时,家中老人突发中风住院, 你需要请假3天回老家处理。你担心领导认为你“临阵脱逃”,也怕耽误项目进度,但家人需要你立刻回去。你 坐在工位上反复措辞,始终不敢敲开领导办公室的门。 场景4:项目中急需请假0 码力 | 65 页 | 4.47 MB | 8 月前3
普通人学AI指南与专用人工智能(AI)不同,AGI 能够执行任何智力任务,具备自我意识和 自适应学习能力。AGI 的研发目标是创造出可以广泛地模拟人类认知能力的智 能系统。 1.3 大模型 大模型通常指的是大规模的人工智能模型,这类模型通过训练大量的数据来获 得广泛的知识和能力。这些模型通常具有庞大的参数数量,能够处理复杂的任 务,如自然语言理解、图像识别、语音识别等。 闭源大模型包括 OpenAI 的 GPT AI 大模型 中,”T” 常用来表示模型在训练中处理的 Token 数量。Token 是指模型处理的 基本单元,可以是一个单词、子词,或者字符等。 在大规模预训练语言模型的训练中,通常会提到模型是在多少个 Token 上 进行学习的,以表明模型的训练规模和数据量。例如:LLaMA3 语言模型使用 了超过 15T 个 token 进行训练。 2 AI 工具梳理 大家有没有觉得 AI 工具太多,种类太多,老的还没用,新的就出来,头大得 模型,用于生成高质量的图像。 2.2.5 DALLE3 闭源:由 OpenAI 开发,是一个闭源的图像生成模型,可以根据文字描述生成 相应的图像。 2.2.6 Midjourney 闭源:由一个小团队开发的闭源 AI,专注于生成创意和艺术图像。 2.3 AI 视频工具 Figure 5: AI 视频工具 2.3.1 Sora (OpenAI 公司) 内测:由 OpenAI 开发,目前处于内部测试阶段的项目。0 码力 | 42 页 | 8.39 MB | 8 月前3
DeepSeek从入门到精通(20250204)DeepSeek:从入门到精通 @新媒沈阳 团队 :余梦珑博士后 清华大学新闻与传播学院 新媒体研究中心 元宇宙文化实验室 • Deepseek是什么? • Deepseek能够做什么? • 如何使用Deepseek? DeepSeek是什么? AI + 国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 意概念和传播策略有效转化为具体行动,确保活动的顺利开展和目标达成。请遵循 以下要求: 1. 执行摘要(300字内):概括整个执行方案的核心内容、主要目标和关键成 功因素。 2. 项目团队构成(300字内):列出核心项目团队成员,包括内部人员和外部 合作方。明确每个角色的主要职责和决策权限。 3. 里程碑规划(1200字内):设定5—7个关键里程碑事件。每个里程碑都应包 含具体目标、完成标准和时间节点。使用甘特图呈现整体时间线。 成就展示部分应突出个人和团队在过 去一年的创新、突破及贡献,提示语 设计应侧重: • 团队贡献 • 创新与突破 • 个人荣誉 未来规划部分是年终总结的重点,旨 在为新的一年设定明确的目标和发展 方向。提示语设计应关注以下要点: • 目标设定 • 行动计划 • 个人成长 维度 提示语示例 要求 团队贡 献 请总结团队在过 去一年中取得的 重大成果,并展 示团队合作的优 势。 团队协作:[描述团队在协作中0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通@新媒沈阳团队 、余梦珑博士后 DeepSeek:从入门到精通 2025年2月 清华大学 新闻学院 人工智能学院 • Deepseek是什么? • Deepseek能够做什么? • 如何使用Deepseek? DeepSeek是什么? AI + 国产 + 免费 + 开源 + 强大 • DeepSeek是一家专注通用人工智能(AGI)的中国科技公司,主攻大模型研发与应 意概念和传播策略有效转化为具体行动,确保活动的顺利开展和目标达成。请遵循 以下要求: 1. 执行摘要(300字内):概括整个执行方案的核心内容、主要目标和关键成 功因素。 2. 项目团队构成(300字内):列出核心项目团队成员,包括内部人员和外部 合作方。明确每个角色的主要职责和决策权限。 3. 里程碑规划(1200字内):设定5—7个关键里程碑事件。每个里程碑都应包 含具体目标、完成标准和时间节点。使用甘特图呈现整体时间线。 成就展示部分应突出个人和团队在过 去一年的创新、突破及贡献,提示语 设计应侧重: • 团队贡献 • 创新与突破 • 个人荣誉 未来规划部分是年终总结的重点,旨 在为新的一年设定明确的目标和发展 方向。提示语设计应关注以下要点: • 目标设定 • 行动计划 • 个人成长 维度 提示语示例 要求 团队贡 献 请总结团队在过 去一年中取得的 重大成果,并展 示团队合作的优 势。 团队协作:[描述团队在协作中0 码力 | 103 页 | 5.40 MB | 8 月前3
清华大学第二弹:DeepSeek赋能职场DeepSeek如何赋能职场应用? ——从提示语技巧到多场景应用 中央民族大学 新闻与传播学院 清华大学 @新媒沈阳 团队 向安玲 Innovator For Culture & Art 文、图、乐、剧 Innovator For Social 智能角色交互体 Innovator For Science & Industry 行业大模型 基座大模型 人机协同 Chatbot 增强人类的创造力 和创新能力 Organization •承担整个组织的 功能,独立管理 并执行复杂的操 作 • 致力于人机协同和人机共生领域的世界级团队,专注于打造能够驾驭AI、熟悉AI并实现人类与AI共生发展的学术与实践模式。 团队愿景 • 李默非(清华大学人工智能学院拟录博士生):人机共生之基座大模型研究研发 • 何静(清华博士后、北航助理教授):人机共生之快生引擎研究研发 • 尤0 码力 | 35 页 | 9.78 MB | 8 月前3
共 12 条
- 1
- 2













