数据治理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

人工智能安全治理框架 1.0

全国网络安全标准化技术委员会 2024年9月人工智能安全治理框架1. 人工智能安全治理原则 …………………………………… 1 2. 人工智能安全治理框架构成 ……………………………… 2 3. 人工智能安全风险分类 …………………………………… 3 3.1 人工智能内生安全风险 ……………………………… 3 3.2 人工智能应用安全风险 ……………………………… 5 4. 技术应对措施技术应对措施 ……………………………………………… 7 4.1 针对人工智能内生安全风险 ………………………… 7 4.2 针对人工智能应用安全风险 ………………………… 9 5. 综合治理措施 ……………………………………………… 10 6. 人工智能安全开发应用指引 ……………………………… 12 6.1 模型算法研发者安全开发指引 ……………………… 12 6.2 人工智能服务提供者安全指引目录- 1 - 人工智能安全治理框架人工智能是人类发展新领域，给世界带来巨大机遇，也带来各类风险挑战。落实《全球人工智能治理倡议》，遵循“以人为本、智能向善”的发展方向，为推动政府、国际组织、企业、科研院所、民间机构和社会公众等各方，就人工智能安全治理达成共识、协调一致，有效防范化解人工智能安全风险，制定本框架。 1. 人工智能安全治理原则秉持共同、综合、合作、可持续的安全观，坚持发展和安全并重，以促

0 码力 | 20 页 | 3.79 MB | 1 月前
3
国家人工智能产业综合标准化体系建设指南（2024版）

1 国家人工智能产业综合标准化体系建设指南（2024版）为深入贯彻落实党中央、国务院关于加快发展人工智能的部署要求，贯彻落实《国家标准化发展纲要》《全球人工智能治理倡议》，进一步加强人工智能标准化工作系统谋划，加快构建满足人工智能产业高质量发展和“人工智能+”高水平赋能需求的标准体系，夯实标准对推动技术进步、促进企业发展、引领产业升级、保障产业安全的支撑作用，更好推业生产模式和经济发展形态，将对加快建设制造强国、网络强国和数字中国发挥重要的支撑作用。人工智能产业链包括基础层、框架层、模型层、应用层等 4 个部分。其中，基础层主要包括算力、算法和数据，框架层主要是指用于模型开发的深度学习框架和工具，模型层主要是指大模型等技术和产品，应用层主要是指人工智能技术在行业场景的应用。近年来，我国人工智能产业在技术创新、产品创造和行业应用等（一）人工智能标准体系结构人工智能标准体系结构包括基础共性、基础支撑、关键技术、智能产品与服务、赋能新型工业化、行业应用、安全 /治理等 7 个部分，如图 1 所示。其中，基础共性标准是人工智能的基础性、框架性、总体性标准。基础支撑标准主要规范数据、算力、算法等技术要求，为人工智能产业发展夯实技术底座。关键技术标准主要规范人工智能文本、语音、图像，以及人机混合增强智能、智能体、跨媒体智能、具身

0 码力 | 13 页 | 701.84 KB | 1 年前
3
清华大学第二弹：DeepSeek赋能职场

陈禄梵（清华大学博士生）：人机共生之AI美学理论 • 罗雨果（清华大学拟录博士生）：人机共生之传播分析 • 章艾媛（清华大学博士生）：人机共生之数据分析 • 邹开元（清华大学博士生）：人机共生之文学内容创作 • 向安玲（清华博士后、中央民大助理教授）：人机共生之AI数据分析领域 • 马绪峰（清华博士后、同济大学助理教授）：人机共生之文化艺术创作成员及核心研究方向赛事奖项 2024 “AI4S Cup 题实体识别一等奖第十八届中国计算语言学大会-小牛杯中文幽默计算一等奖第十届全国社会媒体处理大会-中文隐式情感分析一等奖 2021全球开放数据应用创新大赛-基于文本挖掘的企业隐患排查质量分析模型第一名 2021中国计算机学会大数据与计算智能大赛-“千言〞问题匹配鲁棒性评测第一名 2021年全国知识图谱与语义计算大会-医疗科普知识答非所问识别第一名互联网虛假新闻检测2019全球挑战赛-虛假新闻多模态检测如何提问？两种模型的提示语差异 • 基础模型（V3）：“过程-结果”清晰（指令） • 深度思考（R1）：目标清晰，结果可以模糊（推理） RTGO提示语结构 Role（角色）定义AI的角色：经验丰富的数据分析师具备十年销售经验的SaaS系统商务 …… Task（任务）具体任务描述：写一份关于XXX活动的小红书宣推文案写一份关于XX事件的舆论分析报告（XX活动/事件相关背景信息如下……）

0 码力 | 35 页 | 9.78 MB | 8 月前
3
DeepSeek从入门到精通(20250204)

们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。维度推理模型通用模型优势领域数学推导、逻辑分析、代码生成、复杂问题拆解文本生成、创意写作、多轮对话、开放性问答全局视野概率预测（快速反应模型，如ChatGPT 4o）链式推理(慢速思考模型，如OpenAI o1) 性能表现响应速度快，算力成本低慢速思考，算力成本高运算原理基于概率预测，通过大量数据训练来快速预测可能的答案基于链式思维（Chain-of-Thought），逐步推理问题的每个步骤来得到答案决策能力依赖预设算法和规则进行决策能够自主分析情况，实时做出决策创造力通用模型适配策略 1. 决策需求需权衡选项、评估风险、选择最优解目标 + 选项 + 评估标准要求逻辑推演和量化分析直接建议，依赖模型经验归纳 2. 分析需求需深度理解数据/信息、发现模式或因果关系问题 + 数据/信息 + 分析方法触发因果链推导与假设验证表层总结或分类 3. 创造性需求需生成新颖内容（文本/ 设计/方案）主题 + 风格/约束 + 创新方向

0 码力 | 104 页 | 5.37 MB | 8 月前
3
清华大学 DeepSeek 从入门到精通

们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强调深度推理能力。此类模型通常通过对大量文本数据的训练，掌握语言规律并能够生成合适的内容，但缺乏像推理模型那样复杂的推理和决策能力。维度推理模型通用模型优势领域数学推导、逻辑分析、代码生成、复杂问题拆解文本生成、创意写作、多轮对话、开放性问答全局视野概率预测（快速反应模型，如ChatGPT 4o）链式推理(慢速思考模型，如OpenAI o1) 性能表现响应速度快，算力成本低慢速思考，算力成本高运算原理基于概率预测，通过大量数据训练来快速预测可能的答案基于链式思维（Chain-of-Thought），逐步推理问题的每个步骤来得到答案决策能力依赖预设算法和规则进行决策能够自主分析情况，实时做出决策创造力通用模型适配策略 1. 决策需求需权衡选项、评估风险、选择最优解目标 + 选项 + 评估标准要求逻辑推演和量化分析直接建议，依赖模型经验归纳 2. 分析需求需深度理解数据/信息、发现模式或因果关系问题 + 数据/信息 + 分析方法触发因果链推导与假设验证表层总结或分类 3. 创造性需求需生成新颖内容（文本/ 设计/方案）主题 + 风格/约束 + 创新方向

0 码力 | 103 页 | 5.40 MB | 8 月前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

要怎么做？效果如何？一能做什么？数据挖掘数据分析数据采集数据处理数据可视化 AIGC 数据应用通过编写爬虫代码、访问数据库、读取文件、调用API等方式，采集社交媒体数据、数据库内容、文本数据、接口数据等。通过数据清洗、数据集成、数据变换、特征工程等方式，实现数据纠错、数据整合、格式转换、特征提取等。对数据进行诊断、预测、关联、聚类分析，常用于问题定位、需求预测、推荐系统、异常检测等。定位、需求预测、推荐系统、异常检测等。对数据进行分类、社交网络分析或时序模式挖掘，常用于客户细分、信用评分、社交媒体营销、股价预测等。将数据转化为统计图、热力图、网络关系图、词云、树形图等，用于揭示数据中蕴含的模式、趋势、异常和洞见。本质：以多agent实现从数据采集到可视全流程模型特点 Claude 3.5 sonnet  平衡性能：在模型大小和性能之间取得平衡，适合 mini  小型化设计：轻量级模型，适合资源有限的环境。  快速响应：优化推理速度，适合实时交互场景。  通用性强：适用于多种自然语言处理任务，如对话生成和文本理解。爬虫数据采集 1、阅读网页源代码，提取特定网页内容； 2、撰写python脚本； 3、提取并合并网址； 4、提取网址内容； 5、写入文件。任务你需要完成以下两个任务： 1.阅读网页【网址】源代码【对应网页源代码】。提取所

0 码力 | 85 页 | 8.31 MB | 8 月前
3
开源中国 2023 大模型(LLM)技术报告

LLM 技术报告大语言模型（LLM）技术作为人工智能领域的一项重要创新在今年引起了广泛的关注。 LLM 是利用深度学习和大数据训练的人工智能系统，专门设计来理解、生成和回应自然语言。这些模型通过分析大量的文本数据来学习语言的结构和用法，从而能够执行各种语言相关任务。以 GPT 系列为代表，LLM 以其在自然语言处理领域的卓越表现，成为推动语言理解、生成和应用的引擎。 LLM 生成、文本摘要、翻译等任务中展现了强大的通用性。本报告从技术人视角出发，将深入探讨 LLM 技术的背景、基础设施、应用现状，以及相关的工具和平台。 2 / 32 LLM Tech Map  向量数据库  数据库向量支持  大模型框架、微调 (Fine Tuning)  大模型训练平台与工具基础设施 LLM Agent  备案上线的中国大模型  知名大模型  知名大模型应用大模型开发工具 AI 编程  插件、IDE、终端  代码生成工具编程语言 3 / 32 LLM 技术背景 Transformer 架构和预训练与微调策略是 LLM 技术的核心，随着大规模语言数据集的可用性和计算能力的提升，研究者们开始设计更大规模的神经网络，以提高对语言复杂性的理解。 GPT (Generative Pre-trained Transformer) 的提出标志着 LLM

0 码力 | 32 页 | 13.09 MB | 1 年前
3
清华大学普通人如何抓住DeepSeek红利

• DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。性能对齐OpenAI-o1正式版。 • DeepSeek-R1在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩OpenAl-o1正式版。 (Pass@1) 支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。决策支持文体转换个性化推荐翻译与转换多语言翻译异常检测多源信息融合知识与推理知识图谱构建流程优化数据可视化数据分析趋势分析多模态交互任务执行任务协调工具调用格式转换关系抽取语言理解文案写作代码注释故事创作通用问答专业领域问答因果推理知识推理模块填充+数据嫁接。分步解决方案：第一阶段：5分钟——用AI暴力生成框架（目标：3000字）场景1：1小时内写完一个1万字的项目书第二阶段：20分钟——用AI批量填充模块（目标：6000字）针对每个小节单独提问，例如： “写一段‘2.1 功能分区’的内容，要求包含自动化立体仓库、AGV调度中心、冷链专区的技术参数，用数据列表形式呈现。” 关键技巧： p 数据嫁接：若缺

0 码力 | 65 页 | 4.47 MB | 8 月前
3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

我们对大模型发展趋势的十大预判 13政企、创业者必读 14 DeepSeek出现之前的十大预判之一传统AGI发展步伐在放慢需要寻找新方向  Scaling Law边际效应递减  人类训练数据接近枯竭  合成数据无法创造新知识  推理能力难以泛化，成本高昂全面超越人类的人工智能在逻辑上不成立政企、创业者必读 15 DeepSeek出现之前的十大预判之二慢思考成为新的发展模式  大  大模型进入「轻量化」时代，上车上终端，蒸馏小模型  先做得更大，然后探索能做多小政企、创业者必读 DeepSeek出现之前的十大预判之五知识的质量和密度决定大模型能力  高质量数据、合成数据使模型知识密度的快速增长  大模型能以更少的参数量达到更高的性能  360联合北大研发：5%参数量逼近Deepseek-R1满血性能 18政企、创业者必读 DeepSeek出现之前的十大预判从预训练Scaling Law转变为强化学习Scaling Law 大数据+大参数+大算力的预训练Scaling Law的边际效应递减 • 人类构造的训练数据已达上限 • 万亿参数规模之后，继续增大参数规模难以带来质的提升 • 训练算力成本和工程化难度大幅上升强化学习Scaling Law • 利用合成数据解决数据用尽问题 • 利用self-play强化学习，在不增大参数规模前提下，大幅提升复杂推理能力

0 码力 | 76 页 | 5.02 MB | 5 月前
3
DeepSeek图解10页PDF

1 本地部署并运行 DeepSeek 1.1 为什么要在本地部署 DeepSeek 在本地搭建大模型（如 DeepSeek）具有多个重要的优势，比如： 1. 保护隐私与数据安全。数据不外传：本地运行模型可以完全避免数据上传至云端，确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调（Fine-tuning）：可以根据特定业务需求对模型进行微调，以适应特定任务，如行业术语、企业内部知识库等。通用性更强。大模型和我们自己基于某个特定数据集（如 ImageNet、20News- Group）训练的模型在本质上存在一些重要区别。主要区别之一，大模型更加通用，这是因为它们基于大量多样化的数据集进行训练，涵盖了不同领域和任务的数据。这种广泛的学习使得大模型具备了较强的知识迁移能力和多任务处理能力，从而展现出“无所不知、无所不晓”的特性。相比之下，我们基于单一数据集训练的模型通常具有较强的针对性，但其知识范围仅对性，但其知识范围仅限于该数据集的领域或问题。因此，这类模型的应用范围较为局限，通常只能解决特定领域或单一任务的问题。 Scaling Laws 大家可能在很多场合都见到过。它是一个什么法则呢？大模型之所以能基于大量多样化的数据集进行训练，并最终“学得好”，核心原因之一是 Scaling Laws（扩展规律）的指导和模型自身架构的优势。 Scaling Laws 指出参数越多，

0 码力 | 11 页 | 2.64 MB | 8 月前
3

共 13 条前往

页

分类

语言

格式