推理导向的强化学习 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

DeepSeek图解10页PDF

. . . . . . . . . . . . . . . . . 7 2.3.2 监督微调（Supervised Fine-Tuning, SFT） . . . . . . 7 2.3.3 强化学习（Reinforcement Learning, RL） . . . . . . . 7 3 DeepSeek-R1 精华图解 . . . . . . . . . . . . . . . . . 7 3.1.1 核心创新 1：含 R1-Zero 的中间推理模型 . . . . . . . 8 3.1.2 核心创新 2：通用强化学习 . . . . . . . . . . . . . . . 8 3.2 含 R1-Zero 的中间推理模型训练过程 . . . . . . . . . . . . . . 9 3.3 通用强化学习训练过程 . . . . . . . . . . . . DeepSeek）具有多个重要的优势，比如： 1. 保护隐私与数据安全。数据不外传：本地运行模型可以完全避免数据上传至云端，确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调（Fine-tuning）：可以根据特定业务需求对模型进行微调，以适应特定任务，如行业术语、企业内部知识库等。 3. 离线运行，适用于无网络环境。可在离线环境下运行：适用于无互联网连接或网络受限的场景。提高系统稳定性：即使云服务宕机，本地大模型依

0 码力 | 11 页 | 2.64 MB | 8 月前
3
机器学习课程-温州大学-02深度学习-神经网络的编程基础

1 2023年03月深度学习-神经网络的编程基础黄海广副教授 2 本章目录 01 二分类与逻辑回归 02 梯度下降 03 计算图 04 向量化 3 1.二分类与逻辑回归 02 梯度下降 01 二分类与逻辑回归 03 计算图 04 向量化 4 符号定义 ?：表示一个??维数据，为输入数据，维度为(??, 1)； )]：表示所有的训练数据集的输入值，放在一个 ?? × ?的矩阵中，其中?表示样本数目; ? = [?(1), ?(2), . . . , ?(?)]：对应表示所有训练数据集的输出值，维度为1 × ?。 5 逻辑回归 Logistic Regression 经典的分类算法,简单、有效，目前用到最多的机器学习分类算法之一。 ? ? 代表一个常用的逻辑函数（logistic function）合起来，我们得到逻辑回归模型的假设函数：当? ? 大于等于0.5时，预测 y=1 当? ? 小于0.5时，预测 y=0 sigmoid 函数 ?=??? + ? ൯ ? ̰? , ? = −?log(̰?) − (1 − ?)log(1 − ̰? 6 逻辑回归损失函数 ൯ ? ̰? , ? = −?log(̰?) − (1 − ?)log(1 − ̰? 为了衡量算法在全部训练样本上的表现如何，我们需要定义一个算法的代价函

0 码力 | 27 页 | 1.54 MB | 1 年前
3
Moonshot AI 介绍

MoonshotAI介绍公司介绍 • 北京⽉之暗⾯科技有限公司（MoonshotAI）是⼀家专注于通⽤⼈⼯智能领域的公司。公司致⼒于寻求将能源转化为智能的最优解，通过产品与⽤⼾共创智能，实现普惠AI。 • 成⽴时间：2023年3⽉1⽇ • 产品 ◦ Kimi智能助⼿（⽹⻚版：kimi.ai、App和⼩程序搜索“Kimi智能助⼿”即可），发布时间 2023年10⽉9⽇公司亮点 1.团队拥有世界级的⼈才密度： a. 创始⼈杨植麟是中国35岁以下NLP领域引⽤最⾼的研究者，Transformer-XL和XLNet两篇重要论⽂的第⼀作者；两位联合创始⼈周昕宇和吴育昕都有10000+的GoogleScholar引⽤。 b. 团队成员囊括NLP,CV,RL（强化学习）,Infra⽅⾯新⽣代⼈才，主导了很多有世界影响⼒的⼯作，吸引了来⾃Goo n等全球领先科技公司的海外⼈才加⼊： i. ⼤模型⽅⾯。团队成员发明了RoPE相对位置编码，是MetaLLaMa和GooglePALM等⼤多数主流模型的重要组成部分；发明了groupnormalization，是StableDiffusion等AI模型成功的关键组件；发明了Transformer-XL，是历史上第⼀个在词级别和字级别都全⾯超越RNN 的注意⼒语⾔模型，解决了

0 码力 | 74 页 | 1.64 MB | 1 年前
3
DeepSeek从入门到精通(20250204)

DeepSeek是一家专注通用人工智能（AGI）的中国科技公司，主攻大模型研发与应用。 • DeepSeek-R1是其开源的推理模型，擅长处理复杂任务且可免费商用。 Deepseek可以做什么？直接面向用户或者支持开发者，提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景，支持联网搜索与深度思考模式，同时支持文件上传，能够扫描读取各类文件及图片中的文字内容。文本生成表格、列表生成（如日程安排、菜谱）社交媒体内容（如推文、帖子）剧本或对话设计文本创作长文本摘要（论文、报告）文本简化（降低复杂度）多语言翻译与本地化摘要与改写 02 01 03 文本生成自然语言理解与分析知识推理知识推理逻辑问题解答（数学、常识推理）因果分析（事件关联性）语义分析语义解析情感分析（评论、反馈）意图识别（客服对话、用户查询）实体提取（人名、地点、事件）文本分类当人人都会用AI时，你如何用得更好更出彩？推理模型 • 例如：DeepSeek-R1，GPT-o3在逻辑推理、数学推理和实时问题解决方面表现突出。推理大模型：推理大模型是指能够在传统的大语言模型基础上，强化推理、逻辑分析和决策能力的模型。它们通常具备额外的技术，比如强化学习、神经符号推理、元学习等，来增强其推理和问题解决能力。非推理大模型：适用于大多数任务，非推理大模型一般侧重于语言生成、上下文理解和自然语言处理，而不强

0 码力 | 104 页 | 5.37 MB | 8 月前
3
谭国富：深度学习在图像审核的应用

深度学习在图像审核的应用腾讯优图实验室谭国富 http://open.youtu.qq.com SACC2017 优图团队立足于社交网络大平台，借助社交业务积累的海量人脸、图片、音乐等数据，专注在人脸、图像、音乐、语音、机器学习等领域开展技术研究，并积极推动研究成果在业务中落地产生价值。关于优图实验室人脸识别图像识别音频识别 SACC2017 目录 01 腾讯优图内容审核能力介绍腾讯优图内容审核能力介绍 02 深度学习技术介绍 03 内容审核的扩展和延伸 00 图像审核的行业背景 SACC2017 内容审核 - 行业现状不良信息泛滥，监管猝不及防 Ø 随着互联网的飞速发展和信息量的猛增，大量的色情图片、暴力等不良信息夹杂其中，严重影响着互联网的健康发展。 Ø 直播行业的快速兴起，使得视频中不良信息含量更加迅猛增长，色情暴力等不雅视频频繁流出，导致各网络直播平台面临危频频繁流出，导致各网络直播平台面临危机。 Ø 内容监管日趋严格， 2017年上半年，各大直播行业协会相应成立，行业平台自我规范的同时，网信办、文化部等国家部门对于直播行业监管也越发严格，几乎所有知名的直播平台均被有关部门点名查处过，特别2017 年月中旬，黄鳝事件引爆网络，让色情直播再度被推上舆论浪尖。微信朋友圈日上传图片10亿张，视频播放20亿次 4000亿QQ空间存量图片，每天空间相册新增6亿

0 码力 | 32 页 | 5.17 MB | 1 年前
3
深度学习在电子商务中的应用

1 深度学习在电商搜索和聊天机器人中的应用探索 SPEAKER / 程进兴 2017年4月 2 3 苏宁国际美国硅谷研究院苏宁美国硅谷研究院创建于2013年11月，其宗旨是建立高科技人才和专利的蓄水池，推动苏宁持续地创新和转型，为用户提供简约完美的用户体验。硅谷研究院由来自云计算、大数据、人工智能及深度学习等不同专业背景的工程师、数据科学家及分析师组成。目前包数据分析，机器学习，人工智能应用等方面的研发工作。在此期间，发表了10多篇相关领域的研究论文，并有10多项相关领域的专利。  业余爱好：骑行个人简介电子邮箱： jim.cheng@ususing.com 5 议程 • 深度学习与商品搜索  矢量化搜索技术简介  基于词语聚类的矢量化  基于用户会话的矢量化  原型评测结果及效果示例 • 深度学习与聊天机器人  聊天机器人主要模块及架构  深度学习探索  聊天机器人评测结果 6 • 语义词汇差异  理发器，理发推子，电推子  血糖计，血糖仪  山地车，死飞，自行车，碟刹，折叠车，公路车，单车 • 解决方案  同义词？  归一化？預報 =》预报，五岁 =》 5岁目前商品搜索中的一些问题 7 人工智能／深度学习在搜索中的应用：网页／电商搜索 • 基于深度学习的（Query, D

0 码力 | 27 页 | 1.98 MB | 1 年前
3
机器学习课程-温州大学-08机器学习-集成学习

1 2022年12月机器学习-集成学习黄海广副教授 2 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 3 1.集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 4 Bagging 从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果：集成学习模型n …… 模型1 模型2 预测n …… 预测1 预测2 训练数据最终预测结果测试数据 5 Boosting 训练过程为阶梯状，基模型按次序一一进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果。集成学习模型n 最终预测结果模型2 预测n …… 预测1 预测2 转化模型1 模型3 转化转化训练数据测试数据 6 集成学习模型n …… 模型1 模型2 预测n …… 预测1 预测2 训练数据第二层数据 Stacking 最终预测结果 Stacking 将训练好的所有基模型对训练

0 码力 | 50 页 | 2.03 MB | 1 年前
3
3 基于Azure的Python机器学习王大伟

基于Azure的Python机器学习平安金融壹账通大数据研究院微软MVP 王大伟目录 CONTENTS Azure与Python 如何用Azure完成机器学习 Azure与自动机器学习 Azure的相关学习资料 Azure与Python 日渐流行的Python TIOBE给出的排行榜是具有权威性质的，是判断语言流行趋势的指标。 TIOBE排行榜的网址是：https://tiobe com/tiobe-index/ 日渐流行的Python 日渐流行的Python 日渐流行的Python 为什么用Python完成机器学习 Python的优势：易学习、大量不断更新的各领域库、尤其适合完成机器学习相关任务。 Python机器学习相关库介绍： Sklearn机器学习地图 Azure是什么？ Azure 是一个不断扩展的云计算服务集合。通过 Azure，公司和组织可以加快发展步伐，提高工作。如何用Azure完成机器学习 Azure机器学习进入Azure服务页面：https://portal.azure.com/#home Azure机器学习通过点击“所有服务”，我们可以看到Azure可提供的服务非常多找到我们本次需要的“AI + 机器学习” Azure机器学习在“机器学习服务工作区”中可以看到已有的服务 Azure机器学习选择“添加”按钮，填写相关信息

0 码力 | 31 页 | 3.69 MB | 1 年前
3
深度学习下的图像视频处理技术-沈小勇

深度学习下的图像视频处理技术沈小勇优图X-Lab视觉AI负责人专家研究员自我介绍自我介绍 2006.9 – 2012.7 浙江大学数学系本科硕士 2012.8 – 2016.6 香港中文大学博士 2016.6 – 2017.5 香港中文大学 Research Fellow 2017.5 – 现在腾讯优图X-Lab 视觉AI负责人，专家研究员个人主页：http://xiaoyongshen

0 码力 | 121 页 | 37.75 MB | 1 年前
3
搜狗深度学习技术在广告推荐领域的应用

搜狗深度学习技术在广告推荐领域的应用舒鹏目录 CONTENTS 01 搜索广告背景知识 02 深度学习在搜狗搜索广告的一些应用 03 基于多模型融合的CTR预估 04 若干思考搜索广告背景知识信息需求用户查询查询理解广告召回点击率预估排序计价结果展示点击及后续行为广告库日志收集展示日志点击日志深度学习在搜狗搜索广告的一些应用无需分词：基于字符粒度表达的问答系统设计无需分词：基于字符粒度表达的问答系统设计 L.X Meng, Y.Li, M.Y Liu, P Shu. Skipping Word: A Character-Sequential Representation based Framework for Question Answering. CIKM2016, pages 1869-1872, 2016. Sogou Inc 文本相关性计算文本相关性计算文本相关性计算深度学习在搜狗搜索广告的一些应用 LSTM LSTM LSTM 中长款牛仔外套 ResNet-50层 CNN-LSTM Encoder CNN CNN 中长款牛仔外套 Cosine-Loss 广告物料推荐深度学习在搜狗搜索广告的一些应用方向用途相关技术图像理解图片物料推荐 CNN 文本相关性广告召回、创意生成 Word2Vec、CSR、LSTM

0 码力 | 22 页 | 1.60 MB | 1 年前
3

共 1000 条前往

页

分类

语言

格式