参数验证 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

筛选、去重，所撰写代码运行后完成数据爬虫任务，所获取数据准确，少量数据有所遗漏。提示词测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响，仅供参考，无法作为决策制定、质量评估或产品验证的最终依据。爬虫数据采集  目前DeepSeek R1、Open AI o3mini、Kimi k1.5支持联网查询网址，Claude 3.5 sonnet暂不支持；  四个模型均能根可以提取所有网址，调整后可输出正确代码，运行代码能生成本地文件，但提取数据结果为空。测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响，仅供参考，无法作为决策制定、质量评估或产品验证的最终依据。文件数据读取 1、读取文件； 2、根据指定内容整理成表格。任务 Open AI o3mini 暂不支持附件上传，响应速度快，能够快速读取粘贴数据，输出结果格式工整、简洁。分比。4.当天的民航客运量、比2024年同期多或者少的百分比、环比的百分比。提示词测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响，仅供参考，无法作为决策制定、质量评估或产品验证的最终依据。文件数据读取 Claude 3.5 sonnet 很好地完成了数据读取及提取任务，没有漏数据指标，数据逻辑性很好 Kimi k1.5 能够快速读取文件数据，并整理成可视化数据表格，但

0 码力 | 85 页 | 8.31 MB | 8 月前
3
清华大学普通人如何抓住DeepSeek红利

场景1：1小时内写完一个1万字的项目书第二阶段：20分钟——用AI批量填充模块（目标：6000字）针对每个小节单独提问，例如： “写一段‘2.1 功能分区’的内容，要求包含自动化立体仓库、AGV调度中心、冷链专区的技术参数，用数据列表形式呈现。” 关键技巧： p 数据嫁接：若缺乏具体数据，直接让AI生成合理虚构值（标注“示例”规避风险）： p “假设园区占地500亩，日均处理包裹量50万件，请计算自动化分拣设备的配置数量，用表格展示。” 预测2025年市占率，需使用ARIMA模型并解释参数选择依据。" "设计一款智能家居产品，要求： ① 解决独居老人安全问题； ② 结合传感器网络和Al预警； ③ 提供三种不同技术路线的原型草图说明。" 决策需求实战技巧：分析需求实战技巧：创造性需求实战技巧：验证性需求实战技巧：识别通用模式，提高提示语可复用性设计灵活、可扩展的提示语模板创建适应不同场景的元提示语批判性思考客观评估AI输出，识别潜在偏见和错误设计反事实提示语，测试AI理解深度构建验证机制，确保AI输出的可靠性创新思维探索非常规的提示语方法结合最新AI研究成果，拓展应用边界设计实验性提示语，推动AI能力的进化伦理意识在提示语中嵌入伦理考量设计公平、包容的AI交互模式

0 码力 | 65 页 | 4.47 MB | 8 月前
3
开源中国 2023 大模型(LLM)技术报告

(Fine Tuning) 大模型框架指专门设计用于构建、训练和部署大型机器学习模型和深度学习模型的软件框架。这些框架提供了必要的工具和库，使开发者能够更容易地处理大量的数据、管理巨大的网络参数量，并有效地利用硬件资源。微调（Fine Tuning）是在大模型框架基础上进行的一个关键步骤。在模型经过初步的大规模预训练后，微调是用较小、特定领域的数据集对模型进行后续训练，以使其更好 2.准备任务特定数据：收集与目标任务直接相关的数据集，这些数据将用于微调模型； 3.微调训练：在任务特定数据上训练预训练的模型，调整模型参数以适应特定任务； 4.评估：在验证集上评估模型性能，确保模型对新数据有良好的泛化能力； 5.部署：将性能经验证的模型部署到实际应用中去。微调的过程也是分类模型训练的过程 (图源：https://medium.com/mlearning-ai/w 的算力指的是执行这些模型所需的计算资源。这包括用于训练和运行模型的硬件（如 GPU 或 TPU）、内存、存储空间以及处理大量数据的能力。LLM 需要非常强大的算力来处理、理解和生成文本，因为它们涉及到数十亿甚至数万亿个参数的训练和推理。 LLM 的基石是算力，而算力的基石是硬件，硬件的性能直接影响着计算任务的速度、效率和能力。是全球领先的 GPU 制造商，提供了强大的图形处理单元，专门用于深度学习和AI计算。

0 码力 | 32 页 | 13.09 MB | 1 年前
3
DeepSeek图解10页PDF

接下来，咱们先从较为基础的概念开始。 2.1 LLM 基础概念模型参数。其中比较重要的比如deepseek-r1:1.5b, qwen:7b, llama:8b，这里的 1.5b, 7b、8b 代表什么？b 是英文的 billion，意思是十亿，7b 就是 70 亿，8b 就是 80 亿，70 亿、80 亿是指大模型的神经元参数（权重参数 weight+bias）的总量。目前大模型都是基于 Transformer Transformer 架构，并且是很多层的 Transformer 结构，最后还有全连接层等，所有参数加起来 70 亿，80 亿，还有的上千亿。教程作者：郭震，工作 8 年目前美国 AI 博士在读，公众号：郭震 AI，欢迎关注获取更多原创教程。资料用心打磨且开源，是为了帮助更多人了解获取 AI 知识，严禁拿此资料引流、出书、等形式的商业活动通用性更强。大模型和我们自己基于某个特定数据集（如大家可能在很多场合都见到过。它是一个什么法则呢？大模型之所以能基于大量多样化的数据集进行训练，并最终“学得好”，核心原因之一是 Scaling Laws（扩展规律）的指导和模型自身架构的优势。 Scaling Laws 指出参数越多，模型学习能力越强；训练数据规模越大、越多元化，模型最后就会越通用；即使包括噪声数据，模型仍能通过扩展规律提取出通用的知识。而 Transformer 这种架构正好完美做到了 Scaling

0 码力 | 11 页 | 2.64 MB | 8 月前
3
普通人学AI指南

自适应学习能力。AGI 的研发目标是创造出可以广泛地模拟人类认知能力的智能系统。 1.3 大模型大模型通常指的是大规模的人工智能模型，这类模型通过训练大量的数据来获得广泛的知识和能力。这些模型通常具有庞大的参数数量，能够处理复杂的任务，如自然语言理解、图像识别、语音识别等。闭源大模型包括 OpenAI 的 GPT 系列和 Google 的 BERT。这些模型因其高效的学习能力和强大的通用性而受到关注。 B（十亿，Billion）：在英文里是 Billion 的缩写，表示十亿。对于 AI 大模型来说，B 一般用于描述模型的参数数量。例如，具有 50B 参数的模型代表这个模型有 50 亿个参数。Ollama3 有尺寸 8B 和 70B，Phi-3-mini 有 3.8B 参数等。 T（万亿，Trillion）：在英文里是 Trillion 的缩写，表示万亿。在 AI 大模型中，”T” 常用来表示模型在训练中处理的任务。 3 零代码本地部署 AI 后端首先介绍一种最精简的本地部署大模型的方法。使用目前最强开源大模型 LlaMA3，2024 年 4 月 19 日，Meta 公司发布，共有 8B，70B 两种参数，分为基础预训练和指令微调两种模型。与 Llama2 相比，Llama3 使用了 15T tokens 的训练数据，在推理、数学、代码生成、指令跟踪等能力获得大幅度提升。 3.1 大模型 Llama3

0 码力 | 42 页 | 8.39 MB | 8 月前
3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

AI不仅是技术革新，更是思维方式和社会结构的变革国家产业个人企业政企、创业者必读人工智能发展历程（一）  从早期基于规则的专家系统，走向基于学习训练的感知型AI  从基于小参数模型的感知型AI，走向基于大参数模型的认知型AI  从擅长理解的认知型AI，发展到擅长文字生成的生成式AI  从语言生成式AI，发展到可理解和生成声音、图片、视频的多模态AI  从生成式AI，发展到推理型AI 先做得更大，然后探索能做多小政企、创业者必读 DeepSeek出现之前的十大预判之五知识的质量和密度决定大模型能力  高质量数据、合成数据使模型知识密度的快速增长  大模型能以更少的参数量达到更高的性能  360联合北大研发：5%参数量逼近Deepseek-R1满血性能 18政企、创业者必读 DeepSeek出现之前的十大预判之六成本越来越低  过去一年，大模型成本「自由落体」  国外：G DeepSeek出现之前的十大预判之十中美差距快速缩小  美国预训练堆算力的路线不可持续，有待发现新范式“换道超车”  软件和算法差距并不大，主要差距在工程、硬件等方面 23政企、创业者必读 DeepSeek的出现验证了我们的预判而DeepSeek的创新更具颠覆性 24政企、创业者必读 DeepSeek是完美的颠覆式创新  技术创新——让过去做不到的事情可以做到  体验创新——让使用起来很难很复杂的东西变得很简单易用

0 码力 | 76 页 | 5.02 MB | 5 月前
3
国家人工智能产业综合标准化体系建设指南（2024版）

决策与控制等标准。 9. 智能体标准。规范以通用大模型为核心的智能体实例和 10 智能体基本功能、应用架构等技术要求，包括智能体强化学习、多任务分解、推理、提示词工程，智能体数据接口和参数范围，人机协作、智能体自主操作、多智能体分布式一致性等标准。 10. 群体智能标准。规范群体智能算法的控制、编队、感知、规划、决策、通信等技术要求和评测方法，包括自主控制、协同控制、任（五）赋能新型工业化标准赋能新型工业化标准主要包括研发设计、中试验证、生产制造、营销服务、运营管理等制造业全流程智能化标准，以及重点行业智能升级标准。 1. 研发设计标准。研制跨领域知识整合、新型设计模式生成、人机协同研发设计等标准。 2. 中试验证标准。围绕高精度、全流程仿真模型，研制智能虚拟中试标准，以及复杂工业场景新技术应用验证标准。 3. 生产制造标准。研制生产过程智能化、产线监测及维护

0 码力 | 13 页 | 701.84 KB | 1 年前
3
DeepSeek从入门到精通(20250204)

通用模型：结构化、补偿性引导（“缺什么补什么”）。避免误区 • 不要对推理模型使用“启发式”提示（如角色扮演），可能干扰其逻辑主线。 • 不要对通用模型“过度信任”（如直接询问复杂推理问题，需分步验证结果）。从“下达指令”到“表达需求” 策略类型定义与目标适用场景示例（推理模型适用）优势与风险指令驱动直接给出明确步骤或格式要求简单任务、需快速执行 “用Python编写快速排序函自由发散，依赖示例引导 4. 验证需求需检查逻辑自洽性、数据可靠性或方案可行性结论/方案 + 验证方法 + 风险点自主设计验证路径并排查矛盾简单确认，缺乏深度推演 5. 执行需求需完成具体操作（代码/ 计算/流程）任务 + 步骤约束 + 输出格式自主优化步骤，兼顾效率与正确性严格按指令执行，无自主优化提示语示例决策需求验证性需求 "为降低物流成本，现有两种方案： "以下是某论文结论：'神经网络模型A优于传统方法B'。请验证： ① 实验数据是否支持该结论； ② 检查对照组设置是否存在偏差； ③ 重新计算p值并判断显著性。" �实战技巧：分析需求 "分析近三年新能源汽车销量数据（附CSV），说明： ① 增长趋势与政策关联性； ② 预测2025年市占率，需使用ARIMA模型并解释参数选择依据。" �实战技巧：执行需求

0 码力 | 104 页 | 5.37 MB | 8 月前
3
清华大学 DeepSeek 从入门到精通

通用模型：结构化、补偿性引导（“缺什么补什么”）。避免误区 • 不要对推理模型使用“启发式”提示（如角色扮演），可能干扰其逻辑主线。 • 不要对通用模型“过度信任”（如直接询问复杂推理问题，需分步验证结果）。从“下达指令”到“表达需求” 策略类型定义与目标适用场景示例（推理模型适用）优势与风险指令驱动直接给出明确步骤或格式要求简单任务、需快速执行 “用Python编写快速排序函自由发散，依赖示例引导 4. 验证需求需检查逻辑自洽性、数据可靠性或方案可行性结论/方案 + 验证方法 + 风险点自主设计验证路径并排查矛盾简单确认，缺乏深度推演 5. 执行需求需完成具体操作（代码/ 计算/流程）任务 + 步骤约束 + 输出格式自主优化步骤，兼顾效率与正确性严格按指令执行，无自主优化提示语示例决策需求验证性需求 "为降低物流成本，现有两种方案： "以下是某论文结论：'神经网络模型A优于传统方法B'。请验证： ① 实验数据是否支持该结论； ② 检查对照组设置是否存在偏差； ③ 重新计算p值并判断显著性。" �实战技巧：分析需求 "分析近三年新能源汽车销量数据（附CSV），说明： ① 增长趋势与政策关联性； ② 预测2025年市占率，需使用ARIMA模型并解释参数选择依据。" �实战技巧：执行需求

0 码力 | 103 页 | 5.40 MB | 8 月前
3
Deepseek R1 本地部署完全手册

MoE模型的Ollama部署⽅法。核⼼提示：个⼈⽤户：不建议部署32B及以上模型，硬件成本极⾼且运维复杂。企业⽤户：需专业团队⽀持，部署前需评估ROI（投资回报率）。⼆、本地部署核⼼配置要求 1. 模型参数与硬件对应表模型参数 Windows 配置要求 Mac 配置要求适⽤场景 1.5B - RAM: 4GB - GPU: 集成显卡/现代CPU - 存储: 5GB - 内存: 8GB - 内存: 32GB（M3 Max） - 存储: 20GB 复杂推理、技术⽂档⽣成 32B+ 企业级部署（需多卡并联）暂不⽀持科研计算、⼤规模数据处理 2. 算⼒需求分析模型参数规模计算精度最低显存需求最低算⼒需求 DeepSeek-R1 (671B) 671B FP8 ≥890GB 2*XE9680（16*H20 GPU） DeepSeek-R1-Distill- 提升 30% 等效RTX 3090 海光 DCU 适配V3/R1模型，性能对标NVIDIA A100 等效A100（BF16） 2. 国产硬件推荐配置模型参数推荐⽅案适⽤场景 1.5B 太初T100加速卡个⼈开发者原型验证 14B 昆仑芯K200集群企业级复杂任务推理 32B 壁彻算⼒平台+昇腾910B集群科研计算与多模态处理四、云端部署替代⽅案 1. 国内云服务商推荐

0 码力 | 7 页 | 932.77 KB | 8 月前
3

共 12 条前往

页

分类

语言

格式