数据驱动 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

要怎么做？效果如何？一能做什么？数据挖掘数据分析数据采集数据处理数据可视化 AIGC 数据应用通过编写爬虫代码、访问数据库、读取文件、调用API等方式，采集社交媒体数据、数据库内容、文本数据、接口数据等。通过数据清洗、数据集成、数据变换、特征工程等方式，实现数据纠错、数据整合、格式转换、特征提取等。对数据进行诊断、预测、关联、聚类分析，常用于问题定位、需求预测、推荐系统、异常检测等。定位、需求预测、推荐系统、异常检测等。对数据进行分类、社交网络分析或时序模式挖掘，常用于客户细分、信用评分、社交媒体营销、股价预测等。将数据转化为统计图、热力图、网络关系图、词云、树形图等，用于揭示数据中蕴含的模式、趋势、异常和洞见。本质：以多agent实现从数据采集到可视全流程模型特点 Claude 3.5 sonnet  平衡性能：在模型大小和性能之间取得平衡，适合 mini  小型化设计：轻量级模型，适合资源有限的环境。  快速响应：优化推理速度，适合实时交互场景。  通用性强：适用于多种自然语言处理任务，如对话生成和文本理解。爬虫数据采集 1、阅读网页源代码，提取特定网页内容； 2、撰写python脚本； 3、提取并合并网址； 4、提取网址内容； 5、写入文件。任务你需要完成以下两个任务： 1.阅读网页【网址】源代码【对应网页源代码】。提取所

0 码力 | 85 页 | 8.31 MB | 8 月前
3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

大模型是一场工业革命，将重塑所有产品和业务。你相不相信？不拥抱AI的组织和个人，会被拥抱AI的组织和个人淘汰。你相不相信？建立AI信仰 6政企、创业者必读大模型不是泡沫，而是新一轮工业革命的驱动引擎蒸汽革命电气革命信息革命以大模型为代表的人工智能革命人工智能是新质生产力的关键支撑技术，人工智能+百业千行将带动新一轮工业革命，为高质量发展注入强大动能大模型的进一步突破将我们对大模型发展趋势的十大预判 13政企、创业者必读 14 DeepSeek出现之前的十大预判之一传统AGI发展步伐在放慢需要寻找新方向  Scaling Law边际效应递减  人类训练数据接近枯竭  合成数据无法创造新知识  推理能力难以泛化，成本高昂全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判之二慢思考成为新的发展模式  大  大模型进入「轻量化」时代，上车上终端，蒸馏小模型  先做得更大，然后探索能做多小政企、创业者必读 DeepSeek出现之前的十大预判之五知识的质量和密度决定大模型能力  高质量数据、合成数据使模型知识密度的快速增长  大模型能以更少的参数量达到更高的性能  360联合北大研发：5%参数量逼近Deepseek-R1满血性能 18政企、创业者必读 DeepSeek出现之前的十大预判

0 码力 | 76 页 | 5.02 MB | 5 月前
3
清华大学普通人如何抓住DeepSeek红利

社交障碍？DeepSeek教你“高情商”破局！ ZXDWsPoPvNtNtNnQnPpMsP8O8QaQpNpPsQqNeRqQnPkPnMpM9PoOwOxNpNsPuOqQpN p 提示词驱动的新生产力在AI时代，知识的获取成本趋近于零，拥有知识不再是核心竞争力。利用提示词创造知识，引领创新、明确方向，成为社会与个人竞争力的关键。 p 选择中的再创造面对AI提供的多种解法， • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAl-o1正式版。 (Pass@1) 支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。决策支持文体转换个性化推荐翻译与转换多语言翻译异常检测多源信息融合知识与推理知识图谱构建流程优化数据可视化数据分析趋势分析多模态交互任务执行任务协调工具调用格式转换关系抽取语言理解文案写作代码注释故事创作通用问答专业领域问答因果推理知识推理

0 码力 | 65 页 | 4.47 MB | 8 月前
3
DeepSeek从入门到精通(20250204)

们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。维度推理模型通用模型优势领域数学推导、逻辑分析、代码生成、复杂问题拆解文本生成、创意写作、多轮对话、开放性问答全局视野概率预测（快速反应模型，如ChatGPT 4o）链式推理(慢速思考模型，如OpenAI o1) 性能表现响应速度快，算力成本低慢速思考，算力成本高运算原理基于概率预测，通过大量数据训练来快速预测可能的答案基于链式思维（Chain-of-Thought），逐步推理问题的每个步骤来得到答案决策能力依赖预设算法和规则进行决策能够自主分析情况，实时做出决策创造力其逻辑主线。 • 不要对通用模型“过度信任”（如直接询问复杂推理问题，需分步验证结果）。从“下达指令”到“表达需求” 策略类型定义与目标适用场景示例（推理模型适用）优势与风险指令驱动直接给出明确步骤或格式要求简单任务、需快速执行 “用Python编写快速排序函数，输出需包含注释。” ✅ 结果精准高效 ❌ 限制模型自主优化空间需求导向描述问题背景与目标，

0 码力 | 104 页 | 5.37 MB | 8 月前
3
清华大学 DeepSeek 从入门到精通

们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。维度推理模型通用模型优势领域数学推导、逻辑分析、代码生成、复杂问题拆解文本生成、创意写作、多轮对话、开放性问答全局视野概率预测（快速反应模型，如ChatGPT 4o）链式推理(慢速思考模型，如OpenAI o1) 性能表现响应速度快，算力成本低慢速思考，算力成本高运算原理基于概率预测，通过大量数据训练来快速预测可能的答案基于链式思维（Chain-of-Thought），逐步推理问题的每个步骤来得到答案决策能力依赖预设算法和规则进行决策能够自主分析情况，实时做出决策创造力其逻辑主线。 • 不要对通用模型“过度信任”（如直接询问复杂推理问题，需分步验证结果）。从“下达指令”到“表达需求” 策略类型定义与目标适用场景示例（推理模型适用）优势与风险指令驱动直接给出明确步骤或格式要求简单任务、需快速执行 “用Python编写快速排序函数，输出需包含注释。” ✅ 结果精准高效 ❌ 限制模型自主优化空间需求导向描述问题背景与目标，

0 码力 | 103 页 | 5.40 MB | 8 月前
3
国家人工智能产业综合标准化体系建设指南（2024版）

业生产模式和经济发展形态，将对加快建设制造强国、网络强国和数字中国发挥重要的支撑作用。人工智能产业链包括基础层、框架层、模型层、应用层等 4 个部分。其中，基础层主要包括算力、算法和数据，框架层主要是指用于模型开发的深度学习框架和工具，模型层主要是指大模型等技术和产品，应用层主要是指人工智能技术在行业场景的应用。近年来，我国人工智能产业在技术创新、产品创造和行业应用等高质量发展的标准体系加快形成。开展标准宣贯和实施推广的企业超过 1000 家，标准服务企业创新发展的成效更加凸显。参与制定国际标准 20 项以上，促进人工智能产业全球化发展。坚持创新驱动。优化产业科技创新与标准化联动机制，加快人工智能领域关键共性技术研究，推动先进适用的科技创新成果高效转化成标准。坚持应用牵引。坚持企业主体、市场导向，面向行业应用需求，强化创新成果迭代和应用场景构建，协同推进人工人工智能标准体系结构包括基础共性、基础支撑、关键技术、智能产品与服务、赋能新型工业化、行业应用、安全 /治理等 7 个部分，如图 1 所示。其中，基础共性标准是人工智能的基础性、框架性、总体性标准。基础支撑标准主要规范数据、算力、算法等技术要求，为人工智能产业发展夯实技术底座。关键技术标准主要规范人工智能文本、语音、图像，以及人机混合增强智能、智能体、跨媒体智能、具身智能等的技术要求，推动人工智能技术创新和应用。智能产

0 码力 | 13 页 | 701.84 KB | 1 年前
3
TVM@AliOS

14 TVMQ@Alios AIOS ! 驱动万物智能 PRESENTATION AGENDA 人人 e 人 e@ TVM Q@ AliOs Overview TVM @ AliOs ARM CPU TVM @ AliOos Hexagon DSP TVM @ Alios Intel GPU Misc /NiiOS ! 驱动万物智能 PART ONE TVM Q@ AliOs AliOs Overview AiOS 1驱动万物智能 AliOs overview 。 AliOs (www.alios.cn) is a newly designed to drive everything toward intelligence. The Alios is running in vehicles, Phone, Pad and loT terminals. Provide cloud 共建未来出行生态 embrace new "connected' era by acting as the IT “chassis' of ROEWE负风 auto industry /NiiOS ! 驱动万物智能 TVM Timeline @ Alios 吕 2018.4 咏 2018.12 | 2019.6

0 码力 | 27 页 | 4.86 MB | 5 月前
3
人工智能安全治理框架 1.0

安全风险方面。通过分析人工智能技术特性，以及在不同行业领域应用场景，梳理人工智能技术本身，及其在应用过程中面临的各种安全风险隐患。 2.2 技术应对措施方面。针对模型算法、训练数据、算力设施、产品服务、应用场景，提出通过安全软件开发、数据质量提升、安全建设运维、测评监测加固等技术手段提升人工智能产品及应用的安全性、公平性、可靠性、鲁棒性- 3 - 人工智能安全治理框架的措施。 2.3 综合治行逻辑复杂，推理过程属黑灰盒模式，可能导致输出结果难以预测和确切归因，如有异常难以快速修正和溯源追责。（b）偏见、歧视风险。算法设计及训练过程中，个人偏见被有意、无意引入，或者因训练数据集质量问题，导致算法设计目的、输出结果存在偏见或歧视，甚至输出存在民族、宗教、国别、地域等歧视性内容。（c）鲁棒性弱风险。由于深度神经网络存在非线性、大规模等特点，人工智能易受复杂多变运（f）对抗攻击风险。攻击者通过创建精心设计的对抗样本数据，隐蔽地误导、影响，以至操纵人工智能模型，使其产生错误的输出，甚至造成运行瘫痪。 3.1.2 数据安全风险（a）违规收集使用数据风险。人工智能训练数据的获取，以及提供服务与用户交互过程中，存在未经同意收集、不当使用数据和个人信息的安全风险。（b）训练数据含不当内容、被 “投毒” 风险。训练数据中含有虚假、偏见、侵犯知识产权等违法有

0 码力 | 20 页 | 3.79 MB | 1 月前
3
开源中国 2023 大模型(LLM)技术报告

LLM 技术报告大语言模型（LLM）技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。以 GPT 系列为代表，LLM 以其在自然语言处理领域的卓越表现，成为推动语言理解、生成和应用的引擎。 LLM 生成、文本摘要、翻译等任务中展现了强大的通用性。本报告从技术人视角出发，将深入探讨 LLM 技术的背景、基础设施、应用现状，以及相关的工具和平台。 2 / 32 LLM Tech Map  向量数据库  数据库向量支持  大模型框架、微调 (Fine Tuning)  大模型训练平台与工具基础设施 LLM Agent  备案上线的中国大模型  知名大模型  知名大模型应用大模型开发工具 AI 编程  插件、IDE、终端  代码生成工具编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心，随着大规模语言数据集的可用性和计算能力的提升，研究者们开始设计更大规模的神经网络，以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM

0 码力 | 32 页 | 13.09 MB | 1 年前
3
DeepSeek图解10页PDF

1 本地部署并运行 DeepSeek 1.1 为什么要在本地部署 DeepSeek 在本地搭建大模型（如 DeepSeek）具有多个重要的优势，比如： 1. 保护隐私与数据安全。数据不外传：本地运行模型可以完全避免数据上传至云端，确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调（Fine-tuning）：可以根据特定业务需求对模型进行微调，以适应特定任务，如行业术语、企业内部知识库等。通用性更强。大模型和我们自己基于某个特定数据集（如 ImageNet、20News- Group）训练的模型在本质上存在一些重要区别。主要区别之一，大模型更加通用，这是因为它们基于大量多样化的数据集进行训练，涵盖了不同领域和任务的数据。这种广泛的学习使得大模型具备了较强的知识迁移能力和多任务处理能力，从而展现出“无所不知、无所不晓”的特性。相比之下，我们基于单一数据集训练的模型通常具有较强的针对性，但其知识范围仅对性，但其知识范围仅限于该数据集的领域或问题。因此，这类模型的应用范围较为局限，通常只能解决特定领域或单一任务的问题。 Scaling Laws 大家可能在很多场合都见到过。它是一个什么法则呢？大模型之所以能基于大量多样化的数据集进行训练，并最终“学得好”，核心原因之一是 Scaling Laws（扩展规律）的指导和模型自身架构的优势。 Scaling Laws 指出参数越多，

0 码力 | 11 页 | 2.64 MB | 8 月前
3

共 14 条前往

页

分类

语言

格式