DeepSeek图解10页PDF亿,70 亿、80 亿是指大模型的神经元参数(权重参数 weight+bias)的 总量。目前大模型都是基于 Transformer 架构,并且是很多层的 Transformer 结构,最后还有全连接层等,所有参数加起来 70 亿,80 亿,还有的上千亿。 教程作者:郭震,工作 8 年目前美国 AI 博士在读,公众号:郭震 AI,欢迎关注获取更多原创教程。资 料用心打磨且开源,是为了帮助更多人了解获取 mer 由多个关键组件组成:1. 自注意 力机制(Self-Attention):模型在处理文本时,会自动关注句子中的重要单 词,理解不同词语间的联系。2. 多头注意力(Multi-Head Attention):使用 多个注意力头同时分析不同的语义信息,使得模型的理解能力更强。3. 前 馈神经网络(FFN):非线性变换模块,提升模型的表达能力。4. 位置编码 (Positional E Encoding):在没有循环结构的情况下,帮助模型理解单词的顺 序信息。 Transformer 结构的优势 1. 高效的并行计算:摒弃循环结构,使计算速度大幅提升。 2. 更好的上下文理解:注意力机制可捕捉长文本中的远程依赖关系。 3. 良好的可扩展性:可适配更大规模模型训练,增强 AI 泛化能力。 教程作者:郭震,工作 8 年目前美国 AI 博士在读,公众号:郭震 AI,欢迎关注获取更多原创教程。资0 码力 | 11 页 | 2.64 MB | 8 月前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单PubScholar平台 知网研学平台 斯坦福STORM 文本长度 文本长度较长,内容丰富, 涵盖了多个研究领域和研 究层次,提供了详细的分 析和评述 文本长度中等长度,内容 较为丰富,也分了多个层 次进行总结 文本长度稍长,内容丰富 性在中文文献的分析上具 有优势,能够详细呈现中 文领域的研究成果 文本长度适中,内容精炼, 重点突出,适合快速阅读 和理解 研究视角 研究视角多样,从不同领 无辅助损失的自然负载均衡和共享专 家机制,解决了专家模块工作量不平 衡的问题。 混合专家(MoE)架构 通过低秩压缩减少推理时的内存占用, 同时保持与传统多头注意力(MHA) 相当的性能。MLA在训练中减少了 内存和计算开销,在推理中降低了 KV缓存占用空间。 多头潜在注意力(MLA)机制 通过序列化预测未来多个令牌,增强 模型的上下文建模能力,并支持推测 解码加速推理。MTP在特定场景下同 时预测多个令牌,提高信号密度,减0 码力 | 85 页 | 8.31 MB | 8 月前3
DeepSeek从入门到精通(20250204)策略二:适当分解复杂任务,降低AI认知负荷 策略三:引入引导性问题,提升生成内容的深度 策略四:控制提示语长度,确保生成的准确性 策略五:灵活运用开放式提示与封闭式提示 分解任务的技巧:分段生成、逐层深入、设置逻 辑结构 引导性问题的设计要点:设置多个层次的问题、 促使AI对比或论证、引导思维的多样性 控制提示语长度的技巧:避免嵌套复杂的指令、 保持简洁性、使用分步提示 开放式提示:提出开放性问题,允许AI根据多个 Connection(连接):建立子任务之间的逻辑关联 • Temporal Arrangement(时序安排):考虑任务的时 间维度 • Resource Allocation(资源分配):为每个子任务分配 适当的注意力资源 • Adaptation(适应):根据AI反馈动态调整任务结构 为了更有效地进行任务分解,可以采用SPECTRA模型(Systematic Partitioning for Enhanced 影响,以及如何共同推进总体目标的实现。” 5. 时序提示:“为每个子任务制定一个粗略的时间表,考虑它们的依赖 关系和完成所需的相对时间。” 6. 资源分配提示:“评估每个子任务的复杂度,分配1—10的'注意力分 数',指导在执行过程中如何分配计算资源。” 7. 适应提示:“在执行每个子任务后,评估其输出质量和对总体目标的 贡献,必要时调整后续任务的优先级或内容。” 思维拓展的认知理论基础 生成0 码力 | 104 页 | 5.37 MB | 8 月前3
清华大学 DeepSeek 从入门到精通策略二:适当分解复杂任务,降低AI认知负荷 策略三:引入引导性问题,提升生成内容的深度 策略四:控制提示语长度,确保生成的准确性 策略五:灵活运用开放式提示与封闭式提示 分解任务的技巧:分段生成、逐层深入、设置逻 辑结构 引导性问题的设计要点:设置多个层次的问题、 促使AI对比或论证、引导思维的多样性 控制提示语长度的技巧:避免嵌套复杂的指令、 保持简洁性、使用分步提示 开放式提示:提出开放性问题,允许AI根据多个 Connection(连接):建立子任务之间的逻辑关联 • Temporal Arrangement(时序安排):考虑任务的时 间维度 • Resource Allocation(资源分配):为每个子任务分配 适当的注意力资源 • Adaptation(适应):根据AI反馈动态调整任务结构 为了更有效地进行任务分解,可以采用SPECTRA模型(Systematic Partitioning for Enhanced 影响,以及如何共同推进总体目标的实现。” 5. 时序提示:“为每个子任务制定一个粗略的时间表,考虑它们的依赖 关系和完成所需的相对时间。” 6. 资源分配提示:“评估每个子任务的复杂度,分配1—10的'注意力分 数',指导在执行过程中如何分配计算资源。” 7. 适应提示:“在执行每个子任务后,评估其输出质量和对总体目标的 贡献,必要时调整后续任务的优先级或内容。” 思维拓展的认知理论基础 生成0 码力 | 103 页 | 5.40 MB | 8 月前3
DeepSeek-V2: A Strong, Economical, and Efficient
Mixture-of-Experts Language Model___。 A. 综合化趋势 B. 多样化趋势 C. 人文化趋势 D. 科学化趋势 答案:A 心智技能的特点有____。 A. 物质性、外显性、简缩性 B. 观念性、内潜性、简缩性 C. 物质性、外显性、展开性 D. 观念性、内潜性、展开性 答案:B 下列关于大学生的情绪与理智关系的说法中正确的是____。 A. 能冷静控制自己情绪 B. 感情用事,难以用理智控制情绪 C. 遇事能坚持自己正确认识0 码力 | 52 页 | 1.23 MB | 1 年前3
国家人工智能产业综合标准化体系建设指南(2024版)产模式和经济发展形态,将对加快建设制造强国、网络强国 和数字中国发挥重要的支撑作用。人工智能产业链包括基础 层、框架层、模型层、应用层等 4 个部分。其中,基础层主 要包括算力、算法和数据,框架层主要是指用于模型开发的 深度学习框架和工具,模型层主要是指大模型等技术和产 品,应用层主要是指人工智能技术在行业场景的应用。近年 来,我国人工智能产业在技术创新、产品创造和行业应用等 方面实现 新型数据中心、智算中心、基础网络通信、算力网络、数据存储 8 等基础设施的技术要求和评估方法,包括基础设施参考架构、计 算能力评估、技术要求、稳定性要求和业务服务接口等标准。 6. 系统软件标准。规范人工智能系统层的软硬件技术要求, 包括软硬件编译器架构和优化方法、人工智能算子库、芯片软件 运行时库及调试工具、人工智能软硬件平台计算性能等标准。 7. 开发框架标准。规范人工智能开发框架相关的技术要求,0 码力 | 13 页 | 701.84 KB | 1 年前3
清华大学第二弹:DeepSeek赋能职场Framework, CAP Framework) 核心层: 1.身份定义 (Identity) •角色属性 •专业背景 •交互特征 执行层: 2. 能力矩阵 (Capability Matrix) •功能范围 •专业技能 •决策权限 约束层: 3. 边界系统 (Boundary System) •伦理规范 •安全限制 •资源约束 操作层: 4. 工作引擎 (Operation 性和权威性,并将关键资料整理形成表格。 3.生成PPT大纲:根据用户需求和收集到的资料,构建PPT大纲,明确每一页 的内容和结构。要有每个章节的题目和每个页面的标题及内容要点。第一层级为封面、目录页、 章节页标题,页面标题为第二层级,页面内容要点为第三和第四层级。关键内容可以用流程图呈 现。不少于30页内容。 4. 生成关键页面的流程图,针对部分核心页面内容,生成流程图。 输出内容及格式: 1、研究资料摘要,表格0 码力 | 35 页 | 9.78 MB | 8 月前3
清华大学 普通人如何抓住DeepSeek红利融入保加利亚红椒粉与希腊酸奶,制成空气感慕斯 3.香肠脆粒 - 伊比利亚辣肠低温烘烤后粉碎成黄金脆粒 4.薄荷冷萃油 - 液态氮急冻薄荷叶萃取的翡翠色精油 ???️ 味觉风暴: •第1层:青椒脆片释放灯笼椒特有的清甜 •第2层:烟熏红椒粉在慕斯中爆破出暖意 •第3层:辣肠碎粒带来咸鲜微辣的颗粒感 •终章:薄荷冷萃油在舌尖炸开极地般的清凉 ??? 分子料理技法: 1.反卷造型:将传统卷物内外翻转,脆网外露包裹柔嫩内馅 2.温 让你的提示语效果倍增的关键策略 开放式提示: 提出开放性问题, 允许AI根据多个 角度进行生成 封闭式提示: 提出具体问题或设定明确限制, 要 策略五: 灵活运用开放式提示与封闭式提示 分解任务的技巧: 分段生成 逐层深入 设置逻 求AI给出精准回答 策略四: 控制提示语长度 ,确保生成的准确性 应对策略: ▪ 采用增量方法: 从基础提示语开始, 逐步添加细节和要求 。 ▪ 主动寻求反馈: 要求AI对其输出进行自我评估, 主导AI交互过程, 确保输出符合 预期 四大核心能力 基础使用层 单一任务 / 简单提示词 / 被动应用 突破路径: 1. 建立提示词体系 2. 设计协作流程 3. 发展创新方法 4. 打造个人特色 独特工作流 方法创新 领域整合 进阶使用层 任务组合 / 结构化提示词 / 主动优化 AI使用层次与突破路径 创新使用层 流程再造 / 提示词艺术 / 创造性应用 感谢聆听!0 码力 | 65 页 | 4.47 MB | 8 月前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502智能体与企业数字化系统的关系 软件 工具 数据 IT系统 业务系统 员工/岗位 组织团队 业务流程 核心业务 智能体 企业要躬身入局,以自身业务驱动,打造专有智能体 63政企、创业者必读 智能体在企业应用的七层能力 与大模型直接聊天,输入简单提示词,无Agent能力 具备简单GUI交互界面,可进行一些设置 用内部提示词进行角色设定 具备GUI界面的多个步骤的工具软件 L2 L1 L0 可执行 k 实现“实时搜索+复杂推理”的完全融合 集成国内16家大模型厂商50多款模型,用户可自由选 择模型,并可多模型协作 可打造个人智能体 70政企、创业者必读 企业应用智能体的九层能力 阶段1-4——初级能力 阶段2 企业私有化部署DeepSeek 阶段3 企业构建专业知识库,DS变成专业大模型 阶段4 利用纳米AI搜索免费Agnet平台,企业可搭建数字员工等AI工具 引入带有强大工作流能力的Agent框架,把复杂的流程自动化 72 企业应用智能体的九层能力 阶段5-6——中级能力政企、创业者必读 强化学习,以DeepSeek模型为基座训练自己的专业推理模型 阶段7 用AI打造自动化的Agent 阶段8 把Agent和原来的业务流融合在一起 阶段9 73 企业应用智能体的九层能力 阶段7-9——高级能力政企、创业者必读 视频号 抖 音 周鸿祎,男,0 码力 | 76 页 | 5.02 MB | 5 月前3
Deepseek R1 本地部署完全手册com/install.sh | sh FROM /path/to/DeepSeek-R1-UD-IQ1_M.gguf PARAMETER num_gpu 28 # 每块RTX 4090加载7层(共4卡) PARAMETER num_ctx 2048 PARAMETER temperature 0.6 TEMPLATE "<|end▁of▁thinking|>{{ .Prompt0 码力 | 7 页 | 932.77 KB | 8 月前3
共 10 条
- 1













