数据可视化分析 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

效果如何？一能做什么？数据挖掘数据分析数据采集数据处理数据可视化 AIGC 数据应用通过编写爬虫代码、访问数据库、读取文件、调用API等方式，采集社交媒体数据、数据库内容、文本数据、接口数据等。通过数据清洗、数据集成、数据变换、特征工程等方式，实现数据纠错、数据整合、格式转换、特征提取等。对数据进行诊断、预测、关联、聚类分析，常用于问题定位、需求预测、推荐系统、异常检测等。定位、需求预测、推荐系统、异常检测等。对数据进行分类、社交网络分析或时序模式挖掘，常用于客户细分、信用评分、社交媒体营销、股价预测等。将数据转化为统计图、热力图、网络关系图、词云、树形图等，用于揭示数据中蕴含的模式、趋势、异常和洞见。本质：以多agent实现从数据采集到可视全流程模型特点 Claude 3.5 sonnet  平衡性能：在模型大小和性能之间取得平衡，适合中等规模任务。 mini  小型化设计：轻量级模型，适合资源有限的环境。  快速响应：优化推理速度，适合实时交互场景。  通用性强：适用于多种自然语言处理任务，如对话生成和文本理解。爬虫数据采集 1、阅读网页源代码，提取特定网页内容； 2、撰写python脚本； 3、提取并合并网址； 4、提取网址内容； 5、写入文件。任务你需要完成以下两个任务： 1.阅读网页【网址】源代码【对应网页源代码】。提取所

0 码力 | 85 页 | 8.31 MB | 8 月前
3
DeepSeek从入门到精通(20250204)

长文本摘要（论文、报告）文本简化（降低复杂度）多语言翻译与本地化摘要与改写 02 01 03 文本生成自然语言理解与分析知识推理知识推理逻辑问题解答（数学、常识推理）因果分析（事件关联性）语义分析语义解析情感分析（评论、反馈）意图识别（客服对话、用户查询）实体提取（人名、地点、事件）文本分类文本分类主题标签生成（如新闻分类）推理大模型：推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。推理模型那样复杂的推理和决策能力。维度推理模型通用模型优势领域数学推导、逻辑分析、代码生成、复杂问题拆解文本生成、创意写作、多轮对话、开放性问答劣势领域发散性任务（如诗歌创作）需要严格逻辑链的任务（如数学证明）性能本质专精于逻辑密度高的任务擅长多样性高的任务强弱判断并非全面更强，仅在其训练目标领域显著优于通用模型通用场景更灵活，但专项任务需依赖提示语补偿能力 • 例如

0 码力 | 104 页 | 5.37 MB | 8 月前
3
清华大学 DeepSeek 从入门到精通

长文本摘要（论文、报告）文本简化（降低复杂度）多语言翻译与本地化摘要与改写 02 01 03 文本生成自然语言理解与分析知识推理知识推理逻辑问题解答（数学、常识推理）因果分析（事件关联性）语义分析语义解析情感分析（评论、反馈）意图识别（客服对话、用户查询）实体提取（人名、地点、事件）文本分类文本分类主题标签生成（如新闻分类）推理大模型：推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。推理模型那样复杂的推理和决策能力。维度推理模型通用模型优势领域数学推导、逻辑分析、代码生成、复杂问题拆解文本生成、创意写作、多轮对话、开放性问答劣势领域发散性任务（如诗歌创作）需要严格逻辑链的任务（如数学证明）性能本质专精于逻辑密度高的任务擅长多样性高的任务强弱判断并非全面更强，仅在其训练目标领域显著优于通用模型通用场景更灵活，但专项任务需依赖提示语补偿能力 • 例如

0 码力 | 103 页 | 5.40 MB | 8 月前
3
清华大学第二弹：DeepSeek赋能职场

张诗瑶（清华大学博士后）：人机共生之AI社会理论分析 • 朱雪菡（清华大学博士后）：人机共生之影视内容创意与制作 • 陈禄梵（清华大学博士生）：人机共生之AI美学理论 • 罗雨果（清华大学拟录博士生）：人机共生之传播分析 • 章艾媛（清华大学博士生）：人机共生之数据分析 • 邹开元（清华大学博士生）：人机共生之文学内容创作 • 向安玲（清华博士后、中央民大助理教授）：人机共生之AI数据分析领域 • 马绪峰（清华博士后马绪峰（清华博士后、同济大学助理教授）：人机共生之文化艺术创作成员及核心研究方向赛事奖项 2024 “AI4S Cup LLM 挑战赛” 大模型科学文献分析赛道一等奖 2024 Kaggl e The Learni ng Agency Lab - PII Data Detecti on 金牌金山办公2024中文文本智能校对大赛第二名 2024 法研杯法律要素争议焦点识别第二名 AFAC2024金融智能创新大赛 2022全球人工智能技术创新大赛-商品标题实体识别一等奖第十八届中国计算语言学大会-小牛杯中文幽默计算一等奖第十届全国社会媒体处理大会-中文隐式情感分析一等奖 2021全球开放数据应用创新大赛-基于文本挖掘的企业隐患排查质量分析模型第一名 2021中国计算机学会大数据与计算智能大赛-“千言〞问题匹配鲁棒性评测第一名 2021年全国知识图谱与语义计算大会-医疗科普知识答非所问识别第一名互联网

0 码力 | 35 页 | 9.78 MB | 8 月前
3
普通人学AI指南

. . . . . . . 12 2.5.4 PromptHero . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.5.5 可视化 AI 提示语 . . . . . . . . . . . . . . . . . . . . . . . 12 2.5.6 Snack Prompt . . . . . . . . . . . 能够执行任何智力任务，具备自我意识和自适应学习能力。AGI 的研发目标是创造出可以广泛地模拟人类认知能力的智能系统。 1.3 大模型大模型通常指的是大规模的人工智能模型，这类模型通过训练大量的数据来获得广泛的知识和能力。这些模型通常具有庞大的参数数量，能够处理复杂的任务，如自然语言理解、图像识别、语音识别等。闭源大模型包括 OpenAI 的 GPT 系列和 Google 的 BERT。这些模型因其上下文窗口大小决定了模型在回答问题或生成文本时可以利用的上下文范围。窗口越大，模型就能处理越长的上下文，对理解长文本内容非常重要。较大的窗口允许模型处理更长的文本片段，从而提高在长文本任务中的表现，如长篇对话、文档生成和分析等。 1.4.2 单位 B 和 T 在 AI 大模型中，常用的两个单位是 B 和 T。 B（十亿，Billion）：在英文里是 Billion 的缩写，表示十亿。对于 AI 大模型来说，B 一般用于描述模型的参数数量。例如，具有

0 码力 | 42 页 | 8.39 MB | 8 月前
3
清华大学普通人如何抓住DeepSeek红利

• DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAl-o1正式版。 (Pass@1) 知识图谱构建流程优化数据可视化数据分析趋势分析多模态交互任务执行任务协调工具调用格式转换关系抽取语言理解文案写作代码注释故事创作通用问答专业领域问答因果推理知识推理问答系统逻辑推理自然语言处理文本生成与创作建议生成风险评估辅助决策概念关联知识整合交互能力情感分析文本分类图像理解跨模态转换专业建议任务分解情感回应上下文理解对话能力多轮对话数学运算逻辑分析能力图谱诗歌创作语音识别指令理解方案规划实体识别 l 文本创作文章/故事/诗歌写作营销文案、广告语生成社交媒体内容（如推文、帖子）剧本或对话设计 l 摘要与改写长文本摘要（论文、报告）文本简化（降低复杂度）多语言翻译与本地化

0 码力 | 65 页 | 4.47 MB | 8 月前
3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

我们对大模型发展趋势的十大预判 13政企、创业者必读 14 DeepSeek出现之前的十大预判之一传统AGI发展步伐在放慢需要寻找新方向  Scaling Law边际效应递减  人类训练数据接近枯竭  合成数据无法创造新知识  推理能力难以泛化，成本高昂全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判之二慢思考成为新的发展模式  大  大模型进入「轻量化」时代，上车上终端，蒸馏小模型  先做得更大，然后探索能做多小政企、创业者必读 DeepSeek出现之前的十大预判之五知识的质量和密度决定大模型能力  高质量数据、合成数据使模型知识密度的快速增长  大模型能以更少的参数量达到更高的性能  360联合北大研发：5%参数量逼近Deepseek-R1满血性能 18政企、创业者必读 DeepSeek出现之前的十大预判从预训练Scaling Law转变为强化学习Scaling Law 大数据+大参数+大算力的预训练Scaling Law的边际效应递减 • 人类构造的训练数据已达上限 • 万亿参数规模之后，继续增大参数规模难以带来质的提升 • 训练算力成本和工程化难度大幅上升强化学习Scaling Law • 利用合成数据解决数据用尽问题 • 利用self-play强化学习，在不增大参数规模前提下，大幅提升复杂推理能力

0 码力 | 76 页 | 5.02 MB | 5 月前
3
国家人工智能产业综合标准化体系建设指南（2024版）

业生产模式和经济发展形态，将对加快建设制造强国、网络强国和数字中国发挥重要的支撑作用。人工智能产业链包括基础层、框架层、模型层、应用层等 4 个部分。其中，基础层主要包括算力、算法和数据，框架层主要是指用于模型开发的深度学习框架和工具，模型层主要是指大模型等技术和产品，应用层主要是指人工智能技术在行业场景的应用。近年来，我国人工智能产业在技术创新、产品创造和行业应用等人工智能标准体系结构包括基础共性、基础支撑、关键技术、智能产品与服务、赋能新型工业化、行业应用、安全 /治理等 7 个部分，如图 1 所示。其中，基础共性标准是人工智能的基础性、框架性、总体性标准。基础支撑标准主要规范数据、算力、算法等技术要求，为人工智能产业发展夯实技术底座。关键技术标准主要规范人工智能文本、语音、图像，以及人机混合增强智能、智能体、跨媒体智能、具身智能等的技术要求，推动人工智能技术创新和应用。智能产基础支撑标准主要包括基础数据服务、智能芯片、智能传感器、计算设备、算力中心、系统软件、开发框架、软硬件协同等标准。 1. 基础数据服务标准。规范人工智能研发、测试、应用等过程中涉及数据服务的要求，包括数据采集、数据标注、数据治理、数据质量等标准。 2. 智能芯片标准。规范智能芯片相关的通用技术要求，包括智能芯片架构、指令集、统一编程接口及相关测试要求、芯片数据格式和协议等标准。

0 码力 | 13 页 | 701.84 KB | 1 年前
3
人工智能安全治理框架 1.0

风险及时采取措施。人工智能安全治理框架（V1.0）- 2 - 人工智能安全治理框架 1.2 风险导向、敏捷治理。密切跟踪人工智能研发及应用趋势，从人工智能技术自身、人工智能应用两方面分析梳理安全风险，提出针对性防范应对措施。关注安全风险发展变化，快速动态精准调整治理措施，持续优化治理机制和方式，对确需政府监管事项及时予以响应。 1.3 技管结合、协同应对。面向人工智能研发应用全过程，综合运用技术、应动态调整更新，需要各方共同对治理框架持续优化完善。 2.1 安全风险方面。通过分析人工智能技术特性，以及在不同行业领域应用场景，梳理人工智能技术本身，及其在应用过程中面临的各种安全风险隐患。 2.2 技术应对措施方面。针对模型算法、训练数据、算力设施、产品服务、应用场景，提出通过安全软件开发、数据质量提升、安全建设运维、测评监测加固等技术手段提升人工智能产品及应用的安全性、公平性、可靠性、鲁棒性- 行逻辑复杂，推理过程属黑灰盒模式，可能导致输出结果难以预测和确切归因，如有异常难以快速修正和溯源追责。（b）偏见、歧视风险。算法设计及训练过程中，个人偏见被有意、无意引入，或者因训练数据集质量问题，导致算法设计目的、输出结果存在偏见或歧视，甚至输出存在民族、宗教、国别、地域等歧视性内容。（c）鲁棒性弱风险。由于深度神经网络存在非线性、大规模等特点，人工智能易受复杂多变运

0 码力 | 20 页 | 3.79 MB | 1 月前
3
开源中国 2023 大模型(LLM)技术报告

LLM 技术报告大语言模型（LLM）技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。以 GPT 系列为代表，LLM 以其在自然语言处理领域的卓越表现，成为推动语言理解、生成和应用的引擎。 LLM 生成、文本摘要、翻译等任务中展现了强大的通用性。本报告从技术人视角出发，将深入探讨 LLM 技术的背景、基础设施、应用现状，以及相关的工具和平台。 2 / 32 LLM Tech Map  向量数据库  数据库向量支持  大模型框架、微调 (Fine Tuning)  大模型训练平台与工具基础设施 LLM Agent  备案上线的中国大模型  知名大模型  知名大模型应用大模型开发工具 AI 编程  插件、IDE、终端  代码生成工具编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心，随着大规模语言数据集的可用性和计算能力的提升，研究者们开始设计更大规模的神经网络，以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM

0 码力 | 32 页 | 13.09 MB | 1 年前
3

共 13 条前往

页

分类

语言

格式