清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单北京航空航天大学 高研院 助理教 授 清华大学新闻学院与人工智能学 院双聘教授 沈阳团队博士后 何静 能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 数据挖掘深度较浅 Kimi k1.5 数据挖掘能力出色 快速读取文件数据,提取网址链接 长文本数据处理能力突出 爬虫数据采集存在代码错误问题 数据分析能力相对较弱 数据应用情况总结 新思路:优势互补,协同应用 Claude+DeepSeek 数据处理的“洗髓易筋” Claude 3.5 Sonnet 在文本提取 上较稳定,可用于数据清洗, DeepSeek R1强大的中文理解能力,自动识 别并修复古籍中的破损文字,同时生成准确的 注释和解释,帮助修复难以辨认的古籍内容。 • 中 文 法 律 文 本 分 析 与 生 成 : 基于 DeepSeek R1的中文数据处理能力,快速分 析法律文本,提取关键信息,自动生成合同草 案、法律意见书等,提高律师工作效率。 • 智能医疗数据分析与诊断:构建智能医疗 平台,分析病历、检查报告和基因数据,帮助 医生提供更准确的诊断与治疗方案。0 码力 | 85 页 | 8.31 MB | 8 月前3
2024 中国开源开发者报告无法持续更新的知识库,可以通过 RAG(Retrieval Augmented Generation,检索增强 生成)来解决。 RAG 的出现,让各界越来越深刻地认识到,大模型没必要存储那么多知识,只需要如何使 用搜索引擎这个外部工具即可。大模型可以在搜索结果上做进一步的信息筛选和优化,而搜索引 擎弥补了大模型的知识缺陷,实现了 1+1>=2 的效果。 RAG 可以被理解为智能体的最简单形式。未来的智能体可以实现多种工具的混合使用,甚 Haiku,大模型自身的能力不断提升,使得模型能够更好地理解和解 决复杂的编程问题。 智能体(AI agent)的引进:智能体可以收集和学习与任务相关的知识,可以直接调用静 态代码分析工具、直接调用搜索引擎和 API 为编程任务服务,并通过构建代码仓库知识图来帮 助大模型全面理解软件仓库的结构和依赖关系,从而更好地定位问题根源并生成有效的代码补丁。 智能体还可以动态获取代码片段和问题相关的信息,并分析和总结收集到的信息,以便规划 AI 从业者观察 因为我看到的不代表真相,所以这一章节会很短,仅仅分享两个发现。 (一)AI 技术的下坡 有两个感受(非证据)可以说明这一点。 (1)关于 AI 大模型的自媒体数量在减少,从搜索引擎趋势,加上我和几个业内朋友的 blog、 公众号以及 X 的阅读量下降趋势也可以佐证这一点,下半年虽然市场理性回归,但整体热度是 在下降的。OpenAI 不再持续放大招可能也是重要原因之一。 (2)我前期接触了很多因为0 码力 | 111 页 | 11.44 MB | 8 月前3
TiDB v8.2 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 82 3.4.5 HTAP 数据处理 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2539 14.2 存储引擎 TiKV · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2556 14.3 存储引擎 TiFlash· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 4987 页 | 102.91 MB | 10 月前3
TiDB v8.5 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 101 3.4.5 HTAP 数据处理 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2566 20 14.2 存储引擎 TiKV · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2583 14.3 存储引擎 TiFlash· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 5095 页 | 104.54 MB | 10 月前3
TiDB v8.4 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 98 3.4.5 HTAP 数据处理 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2548 14.2 存储引擎 TiKV · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 2565 17 14.3 存储引擎 TiFlash· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 5072 页 | 104.05 MB | 10 月前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502大模型是一场工业革命,将重塑所有产品和业务。你相不相信? 不拥抱AI的组织和个人,会被拥抱AI的组织和个人淘汰。你相不相信? 建立AI信仰 6政企、创业者必读 大模型不是泡沫,而是新一轮工业革命的驱动引擎 蒸汽革命 电气革命 信息革命 以大模型为代表的 人工智能革命 人工智能是新质生产力的关键支撑技术,人工智能+百业千行将带动新一轮工业革命,为高质量发展注入强大动能 大模型的进一步突破将引领 识工场、模型工场,训练 业务大模型 DeepSeek基座大模型 59政企、创业者必读 关键基础之一:知识库打造 知识库打造是DeepSeek更懂企业的基础 知识自动汇集,不流失 多模态数据处理和理解 非结构化文档处理和理解 搜索,辅助内部办公和外部客户服务 为业务大模型RAG做准备 内部知识管理 • 把企业内部的碎片化知识, 把专 家头脑中的经验转化为显性知识 管理起来, 如员工邮件、0 码力 | 76 页 | 5.02 MB | 5 月前3
Python 标准库参考指南 3.7.13 --- 内存映射文件支持 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 957 20 互联网数据处理 961 20.1 email --- 电子邮件与 MIME 处理包 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Match.pos pos 的值,会传递给search() 或match() 的方法 a 正则对象 。这个是正则引擎开始在字符串搜索一 个匹配的索引位置。 Match.endpos endpos 的值,会传递给search() 或match() 的方法 a 正则对象 。这个是正则引擎停止在字符串搜索 一个匹配的索引位置。 Match.lastindex 捕获组的最后一个匹配的整数索引值,或者 数据库中定义的触发器的执行。 将传入的 trace_callback 设为None 将禁用跟踪回调。 3.3 新版功能. enable_load_extension(enabled) 此例程允许/禁止 SQLite 引擎从共享库加载 SQLite 扩展。SQLite 扩展可以定义新功能,聚合或全 新的虚拟表实现。一个众所周知的扩展是与 SQLite 一起分发的全文搜索扩展。 默认情况下禁用可加载扩展。见1. 30 码力 | 1961 页 | 9.14 MB | 9 月前3
Python 标准库参考指南 3.7.13 mmap --- 内存映射文件支持 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 902 20 互联网数据处理 907 iii 20.1 email --- 电子邮件与 MIME 处理包 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Match.pos pos 的值,会传递给search() 或match() 的方法 a 正则对象 。这个是正则引擎开始在字符串搜 索一个匹配的索引位置。 Match.endpos endpos 的值,会传递给search() 或match() 的方法 a 正则对象 。这个是正则引擎停止在字符串 搜索一个匹配的索引位置。 Match.lastindex 捕获组的最后一个匹配的整数索引值,或者 理和当前数据库中定义的触发器的执行。 将传入的 trace_callback 设为None 将禁用跟踪回调。 3.3 新版功能. enable_load_extension(enabled) 此例程允许/禁止 SQLite 引擎从共享库加载 SQLite 扩展。SQLite 扩展可以定义新功能,聚合 或全新的虚拟表实现。一个众所周知的扩展是与 SQLite 一起分发的全文搜索扩展。 394 Chapter 12. 数据持久化0 码力 | 1846 页 | 9.09 MB | 9 月前3
Python 标准库参考指南 3.8.20 --- 内存映射文件支持 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1016 19 互联网数据处理 1021 19.1 email --- 电子邮件与 MIME 处理包 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Match.pos pos 的值,会传递给search() 或match() 的方法 a 正则对象 。这个是正则引擎开始在字符串搜索一 个匹配的索引位置。 Match.endpos endpos 的值,会传递给search() 或match() 的方法 a 正则对象 。这个是正则引擎停止在字符串搜索 一个匹配的索引位置。 Match.lastindex 捕获组的最后一个匹配的整数索引值,或者 Python 3.8 使用的默认协议。有关第 4 版协议带来改进的信息,请参阅 PEP 3154。 • 第 5 版协议是在 Python 3.8 中加入的。它增加了对带外数据的支持,并可加速带内数据处理。请参阅 PEP 574 了解第 5 版协议所带来的改进的详情。 注解: 序列化是一种比持久化更底层的概念,虽然pickle 读取和写入的是文件对象,但它不处理持久对象 的命名问题,也不处理对0 码力 | 2052 页 | 9.74 MB | 9 月前3
Python 标准库参考指南 3.8.20 mmap --- 内存映射文件支持 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 947 19 互联网数据处理 953 19.1 email --- 电子邮件与 MIME 处理包 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 953 Match.pos pos 的值,会传递给search() 或match() 的方法 a 正则对象 。这个是正则引擎开始在字符串搜 索一个匹配的索引位置。 Match.endpos endpos 的值,会传递给search() 或match() 的方法 a 正则对象 。这个是正则引擎停止在字符串 搜索一个匹配的索引位置。 Match.lastindex 捕获组的最后一个匹配的整数索引值,或者 Python 3.8 使用的默认协议。有关第 4 版协议带来改进的信息,请参阅 PEP 3154。 • 第 5 版协议是在 Python 3.8 中加入的。它增加了对带外数据的支持,并可加速带内数据处理。请参 阅 PEP 574 了解第 5 版协议所带来的改进的详情。 注解: 序列化是一种比持久化更底层的概念,虽然pickle 读取和写入的是文件对象,但它不处理持久 对象的命名问题,也不处理对0 码力 | 1927 页 | 9.69 MB | 9 月前3
共 80 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













