StoneRen

AI观察-003期: 轰动的DeepSeek R1

Feb 02, 2025

Important

最近赶上春节,DeepSeek可以说是轰动海内外,除了圈内人,外围的,很多很多的普通人也已经沉迷在DeepSeek中了。

DeepSeek一方面是其回答质量之高,让大众非常感兴趣。
轰动海外学术圈和工程圈的主要原因有:

  • 非常非常便宜
  • 完全开源

关于成本低这个话题,我会专门写一篇文章,简单介绍下。

DeepSeek R1 发布,性能对标 OpenAI o1

官方发布: https://api-docs.deepseek.com/zh-cn/news/news250120

DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

而且更重要的是,这次更加开放和利他:

  • 训练技术全部公开
  • 开源协议更宽松,不限制商用,无须申请
  • 明确可“模型蒸馏”

普通大众可理解的 DeepSeek R1论文

原文:https://trite-song-d6a.notion.site/Deepseek-R1-for-Everyone-1860af77bef3806c9db5e5c2a256577d

这篇文章详细讨论了 R1 模型的实际工作原理。

主要包含以下部分:

  • 思维链推理
  • 强化学习
  • GPRO
  • 蒸馏

其中蒸馏部分在博主的另外一篇博客中有详细介绍,所以在这篇文章中就简单提了下。

我消化吸收后对这篇文章的理解如下:

思维链推理

其实在我们写agent的时候,接触过CoT,也就是思维链。
思维链能够很好的让我们的agent具备基本的逻辑判断。

在这里,DeepSeek R1直接在大模型中重点训练。让大模型本身具备思维链的思考方式,来进行后续的推理。
区别早期的大模型,并不是直接给答案,而是先给出思考和简单逻辑,再给出答案。

<think>{{thoughts}}</think>
<answer>{{final_answer}}</answer>

Note

在之前大模型的应用中,我们会尽力优化prompt。因为不同的prompt,给出答案的质量差异是很大的。
但在有了思考之后,大模型能够进行有效自我最佳路径寻找。
这就是为什么我们感觉直接使用deeepseek效果会这么好,因为中间已经进行了强化。

强化学习

这里的强化学习有什么不同之处呢?
之前的强化学习,在于让模型拿到正确的结果。而R1的强化学习是在正确结果的前提下,让模型找到最佳解决方案。
解决问题的最佳政策具有最高奖励的政策,被称为最佳政策。
DeepSeekR1最重要的就是尝试找到答案的最佳思维链。

GRPO

GRPO,Group Relative Policy Optimization,小组相对策略优化。
GRPO是一种强化学习算法,抓们训练大语言模型在复杂任务(如数学推理,代码生成)中表现更好。
它的核心思想就是通过组内相对奖励来优化模型,而不是通过传统的批评模型。

GRPO的步骤:

  1. 采样一组输出
    1. 对于问题A,生成一组不同答案和推理过程的输出
  2. 组内奖励
    1. 对输出进行评分,计算奖励(答案是否正确,推理是否合理)
    2. GRPO计算每个输出的相对优势
  3. 优化策略
    1. 调整策略,持续优化更好的的结果

举个例子,你在新东方学习烹饪。老师傅让所有学生做一份蛋炒饭。
每个学生险自己尝试不同的做法。
老师傅会根据你做饭的步骤、火候的单个点进行指导。

AppStore 内 DeepSeek 超越 ChatGPT

原文:https://mp.weixin.qq.com/s/POQNciEdLeFqlK8iA981kQ

0-PRESENT © StoneRenver:2509181051