vy2x6

https://sicmodule.kub2b.com/comvy2x6/

相对应的Searchf方法，实际上PRM的在难度等级5的数学题下，准确率低下。对于难题的解决的矛头仍指向：如何将推理能力训练到模型本身

Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameter

PRM无法准确描述环境，那么在难题上的Search就是可有可无, R1的评价是“Limited”

its advantages are limited compared to the additional computational overhead it introduces during large-scale reinforcement learning process in our experiments

3.2 MCTS是否无效？

结论：无效

和里的区别：AlphaGo的MCTS价值估计是rollout再回溯估计动作价值，而是做价值估计。

围棋的难度相较LLM Next-Token generation式的MDP简单的多。另外价值网络也会直接影响生成的选择，LLM Next Token预测较围棋网络下子 inference成本大的多，工程受限下的MCTS试错成本高。

While AlphaGo’s core success relied on training a value model to progressively enhance its performance, this principle proves difficult to replicate in our setup due to the complexities of token generation.

我们前面提到的也具有用了搜索的思想，在线采样实际上是MC Rollout，但是不做常规的动作或状态价值估计，从真实奖励进行估计优势，需要花费inference的成本。

R1-Zero将推理难题转为close-form下的端到端学习问题，纯RL就能激发模型的顿悟，并且在AIME显著提升
OpenAI的ReFT思路与R1应该大差不大，将math推理能力高效泛化到其他领域是下一个研究热点。
o1类推理的方案又前进了一步，而DeepSeek的MCTS和PRM上的尝试，是非常有价值的经验分享，少走弯路

拓展阅读：

【解读】DeepSeek-R1: RL前到底需不需要SFT???

我是,原创超长文知识分享

原创课程已帮助多名同学上岸LLM赛道

/：

近期新增第14章节 o1实操 o1相关技术PRM、MCTS、MCTS-LLM技术

>>【手撕LLM+RLHF+多模态+o1推理】

	title	简介
相关列表再深挖DeepSeek-R1： Reward is Enough 我的世界手机版照相机怎么用照相机使用教程凤凰网手机版「我的世界手机版照相机怎么用照相机使用教程」苹果手机的关机方法（苹果手机的关机方法有哪几种） “让每个家庭的桌上都有一台电脑”的愿景，过时了么？招商时代潮派（2024年招商时代潮派）首页网站-楼盘详情-招商时代潮派户型配套文章列表暂无文章推荐文章低代码快速对接淘宝订单数据【热点押题】2024中央经济工作会议解读③，附押题方向+思维导图！ 2025寒假读书活动｜寒假优秀读书随笔展示(第五期）观察｜细数2024年能源电力十大热点【穗岁康】参保季开始了！热点问题解答来了→ 日期：2025-01-16 11：08：15 来源：本站连续两年纳入十大民生项目清单！1500余个寒假“爱心托管班”开班啦头条都 2025 年了，还有品牌不会抢「风」头吗？没错！这些抖音、小红书的热门推荐，都在湖里！【健康科普】又上热搜！最近很火的“煮苹果水”，到底怎么喝更有用？焦点｜ “TikTok难民”涌入小红书，外语人如何接住这“泼天的富贵”？春节在泸州，哪里堵、注意哪些风险、参加酒城“天天乐”如何出行......看这篇→ 最新！嵊州2025年十大重点民生实事公布家庭农场项目补贴申请指南 ae跳舞脸部追踪特效教程,AE脸部跟踪：在线特效教程大全		首页 > 文章中心再深挖DeepSeek-R1： Reward is Enough 发布时间：2025-02-02 浏览次数：1 返回列表原创小冬瓜AIGC 手撕LLM 2025年01月23日 19:32 广东我是小冬瓜AIGC,原创超长文知识分享原创课程已帮助多名同学上岸LLM赛道知乎/小红书：小冬瓜AIGC 我们在前日对进行了解读，更多关注实现的方法和成效。【解读】DeepSeek-R1: RL前到底需不需要SFT??? 仔细想来仍有较多值得玩味的地方，我们以端到端角度看, 并且为什么在数学推理场景下Reward is Enough。 Post-Training的目标是什么？为什么要解决数学问题？推理能力与通用能力之间的关系是什么？ RL训练学习到的到底是什么？CoT过程一定是正确的吗？能否部署？为什么不愿在RL前SFT？能否在后续增加指令微调？RL时base模型是如何采样的？冷启动是否是为了解决什么问题对于是否是前置必要的？为什么仍要SFT和Preference Learning？通用SFT数据存在的意义是什么？在应用部署时是否是多模型？什么是? 能否不用RL也能实现Long-CoT? ReFT(Reinforcement Learning Finetune) 是否是一种端到端学习？为什么会有“Aha Moment” 行为？为什么不显式教授Reasoning技巧？ “Aha Moment”是否就一定能强化推理能力？ PRM和MCTS是否是Reasoning的错误路径？ MCTS在LLM场景的真实瓶颈在哪里？ “MATH推理”到“通用任务推理的泛化”的距离有多远？ 1.1 推理任务问题定义和目标我们通常接触到的语言模型分两类，一种是通用模型(General), 一种是特定任务模型。前者代表如ChatGPT可以在创意写作、代码协作和翻译等任务中都有出色表现，后者指特定场景任务下能够有出色表现比如代码模型，如果将“推理（reasoning）“定义为一种具体能力，那么”数学“就是体现”推理“能力的一种具体任务，数学问题通常需要有严密的逻辑推导或证明，才能得到正确的答案。在数学任务里，我们有两种问题形式，主要分为：选择题/填空题：特指我们只要答对答案就可以，特点是答案是客观的，无歧义的，答案形式如或，意义也是准确的，比如你在一个几何题里你用量尺直接得到答案，只要撞对ground truth，也能够得分，这个打分的判别是解答题：根据题干我们需要有解答过程，推导出正确答案，我们才能拿到分数，那么这里的解答过程Solution，在严格的评判标准里，推导的过程也是要计算分数的。这个打分的判别是的这种有客观答案的问题我们定义为的问题，当前主流的LLM数学能力评判其实是，就意味着评判LLM的能力不关心解答过程Solution。而主流的数学推理能力需要思维链(Chain-of-thought)生成solution，只是一种提高answer的准确性的手段。问题比open-form更容易监督，较进一步简化标签，更易监督。所以现在Post-Training的目标是使得模型通用能力提高，而通用里面的瓶颈是推理难题，解决数学难题的好处在于：模型的逻辑推理能力提升数学推理能力能够泛化到其他领域学习到的推理形式能够加强模型结构化推理 1.2 分析 1.2.1 目标我们先简要说明到的RL训练目标在的数学问题上得到高的高分，而Answer与Label的判别是具体客观的，也就是ruled-based 判别那么在训练过程中，我们只需要准备好数学问题集，我们可以让模型在线采样出CoT Solution，最后的答案用来包裹； RL过程中on-policy采样出来的CoT Solution，是否是step-by-step，是否是每一步都正确，是否是逻辑连贯，是否是乱码，是否是混合语言，是否是格式混乱，是否是Aha Moment，都不重要，只要Final Answer是正确，那么哪怕solution是乱码，每个token都是有益的正反馈（通过adavatage形式）在Answer-check的问题设置里，open-form开放问题是没法在这一套 GRPO 框架训的，因为生成结果不能rule-based判别，也没有reward model。所以DeepSeek-R1-Zero只在close-form和answer-check的特殊问题上进行训练的。 Q: CoT过程一定是正确的吗？能否部署？ A: CoT过程不一定是正确的，没有严格要求；未经过指令微调和偏好对齐，是不适用在部署通用应用里的，R1-Zero是个特异的模型 1.2.2 RL激发“Aha Moment” 纯Reasoning RL训练过程中会采样出“Aha Moment”(顿悟), 我认为有两点原因：模型强（即本身MATH-500就是高分90.1） on-policy采样时相较，会Rejection Sampling 出多个output（即是一种探索），哪怕探索出的答案都是错的，那么RL训练能抑制这一批推导错误的生成。如果有多个正反馈，那么也能某种程度保证模型输出多样性。所以“Aha Moment”本质是搜索，我们有足量的搜索，一定有可能顿悟，搜索出错误答案对于RL那就避免这个行为产生，搜索出错误的答案对于训练也是有用的。在过去我们可以尝试用规则或者模型来控制推理行为：如Self-evaluate、Self-Reflection、Self-Improve等，我们所说RL能激发“Aha-Moment” 指的是我们并没有引入“先验”，就探索到提高准确率对应的推理技巧。在“Aha Moment”里我们不能直接量化过程推理能力，而是通过CoT采样 Solution的token 序列长度(test-time computation increases, 产生越长的token需要的计算量越多)决定的。 naturally acquires the ability to solve increasingly complex reasoning tasks by leveraging extended test-time computation. Aha Moment有什么弊端？可能会造成过度思考问题和重复思考等问题。 1.2.3 SFT数据质量影响我们可以进一步对比系列模型，来做进一步分析RL前的SFT是否必要。纯Reasoning RL在AIME取得显著提升(39.2->71.0)，我们可以审视的SFT训练的影响。也有SFT但是产生了更高的分数，我们能知道所用的数据包含600k的long-CoT推理数据。 [注]美国数学邀请赛（AIME，American Invitational Mathematics Examination）所以做个不严格的结论：SFT是没问题的，也不存在SFT无用论，数据质量影响可能远大于方法本身。那么训练的数据瓶颈就变为了收集或者合成复杂问题的“Long-CoT” solution，过程中有错误也能接受，毕竟无法让人类手写出600k条高质量的solution 而的尝试或者存在的目的，是为了合成高质量的Long-CoT 1.2.4 R1-Zero纯Reasoning RL为什么不用SFT 在过去一直被诟病SFT或者其他对齐方法，会对整体性能产生“遗忘”或“性能退化”，我们总结下SFT的弊端：满血的base更强现有的数据Long-CoT少哪怕是从o1采样的数据去蒸馏，也只是强行适配o1的模型的分布。现有的solution仍不够复杂，比如是人类写出的solution，大多是抛弃掉了“草稿纸演算”后的简洁解答，或者是没有显式的写出思考的“心路历程”，我们在复杂数学问题上，写在试卷里的解答过程，实际上是跳过了思维的精华。人类教授的推理技巧，可能是在帮助模型先走捷径再探索，而不是纯RL先探索再走捷径。另外缺少人类的先验，那么产生的解答“可读性差”并不奇怪，R1-Zero的目标是最大化准确率，并不是给人用的，也不是用于产品部署的。我们仍需要有通用能力的模型。那么我们可以留下问题：没有SFT训练，RL初期采样时有Few-shot/CoT prompt？会不会难以采样到正确答案使得训练缓慢或不稳定？能否在之后进行指令微调？能否将通用问题和推理问题一起从base模型做RL？为什么还要重起炉灶，从base训仍要SFT？ 1.2.5 R1需要什么样的SFT数据我们先说为什么要Cold-Start SFT？加快RL训练引入人类先验控制 reasoning 回答格式的训练是四个阶段，实际上可以分成两部分，两个部分都要SFT+RL，按照这两个主要阶段说明数据源 A. 特定推理能力的SFT和RL，相较，实际上是为了引入人类先验，帮助模型在特定特例场景下控制输出格式提升可读性，SFT数据：prompt engineering产生的CoT数据、从采样并且人工处理、Markdown格式控制数据、摘要数据收集，RL过程：增加一致性奖励等。 B. 当模型能够输出可读性好的reasoning数据（合成数据），才开始进入到最终的训练，最终的问题我们要思索的是为什么R1引入了通用数据训练，会比推理性能更好？直觉的猜测为：通用的数据部分可能也有较强的推理属性，如代码、谜题、摘要和脑经急转弯等，丰富了推理的模式格式化组织数据，使得数据表征更高效。 1.2.6 R1 工程部署优势提示词工程决定“deepthink”模式 we call DeepSeek-V3 to generate a potential chain-of-thought before answering the question by prompting. However, for simpler queries, such as “hello” we do not provide a CoT in response. 不用额外的模型，即可做summarization we design a readable pattern that includes a summary at the end of each response and filters out responses that are not reader-friendly 虽然对prompt提示词敏感，但解决问题可以纯zero-shot we recommend users directly describe the problem and specify the output format using a zero-shot setting for optimal results. 1.3 小结从的on-policy采样角度看“Aha-Moment”是合理的，顿悟是探索的结果。 SFT是否必要？如果是通用能力我们仍需要SFT。如果是特定任务，SFT要不要做取决于数据质量。 AIME的结果表明了R1-Zero的纯RL-Reasoning的超强能力，尽管上线的是，而的影响也是非常重大的在的训练过程里，并没有过程监督，是通过结果来监督的，实际上是一种端到端的学习。更具体的我们可以称为：端到端的推理能力学习。我们所知道的自动驾驶里：端到端：输入获取传感器信息，输出控制信息非端到端：传感器获取视频，视频信息里检测和追踪车道线、汽车、红绿灯等，然后做出规划和决策等，每步都进行拆解，相较端到端，learning过程里的标签的获取成本高。至于Learning的具体算法，用的PPO、甚至SFT其实都没关系，只要solution是在线采样的。 2.1 Reward is enough 在的实践表明，仅靠规则reward是足够的，reward足够与具体的问题类别有关如： close-form数学问题：有标准的答案代码：运行代码，执行器反馈对错，或者Leetcode提交代码后的平台反馈。我们看下更早的是，围棋的奖励是终局的规则判别，经过大量的self-play仅靠胜负反馈就能学习到超越人类的“围棋推理能力”。 2.2 更早的端到端推理学习： STaR STaR: Bootstrapping Reasoning With Reasoning 在22年的STaR的文章里，已经有端到端推理思想了，只不过所用的训练方法是SFT 我们在以下选择题形式的问题里，我们可以在线采样出Rationale和Answer，这里的Rationale我们当成是CoT/Long-CoT来看待，那么如果采样出的Answer和Label匹配，那么这条采样数据我们保留，如果不匹配，那么剔除。所保留带CoT的数据，进行SFT训练。通过这种端到端思想，就可以提高推理能力，弊端无一例外在于Rationale或CoT里推断的准确性是无法保证的。 2.3 OpenAI强化学习微调ReFT OpenAI's Reinforcement Fine-Tuning Research Program 在OpenAI 12day里提出了ReFT项目，实质上就是期望收集垂直领域专家级别问题和答案。 Reinforcement Fine-Tuning excels at tasks where the outcome has an objectively “correct” answer that most experts would agree with. 样例来自OpenAI 12days： Day2，我们按照 RL训练需求数据，实际上要的专家级问题可以不用solution但是需要final answer ，仅需final answer “Answer”就可以进行监督，如下例的Correct Answer ： FOXE3 与End-to-End（Outcome Supervision）相对应的是过程监督（Process Supervision），在Deepseek尝试里，PRM和MCTS并不理想。 3.1 过程监督是否无效？结论：无效实际上LLM的过程定义是不具体的：步骤不具体：按照换行符换分，按照段落划分，按照字符数量划分，按照逻辑部落划分，这里有很大的区别，另外不同的任务的定义有所区分，比如代码是否可以是function-level还是line-level 准确性判别：如果一个leetcode问题，生成导出使用暴力搜索的方法步骤，或者我们输出一段代码能够运行，但是内存泄漏，我们能100%一致性标注出准确还是错误吗？上述数据标签噪声大，那么所训PRM性能也受限。另外自动化的标注可见方案，标注是建立在一定架设上的统计，而非是确定的正确性判别标签。
1	Math-Shepherd: Verify and Reinforce LLMs Step-by-step without Human Annotations	Math-Shepherd: 有较高的标注成本，且标注值为概率，而非准确性。
2	Improve Mathematical Reasoning in Language Models by Automated Process Supervision	Omega-PRM 提出更宽松的假设，进行二分标注

管理入口| 返回顶部

声明：企库往特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

vy2x6

https://sicmodule.kub2b.com/comvy2x6/

1.1 推理任务问题定义和目标

1.2 分析

1.2.1 目标

1.2.2 RL激发“Aha Moment”

1.2.3 SFT数据质量影响

1.2.4 R1-Zero纯Reasoning RL为什么不用SFT

1.2.5 R1需要什么样的SFT数据

1.2.6 R1 工程部署优势

1.3 小结

2.1 Reward is enough

2.2 更早的端到端推理学习： STaR

2.3 OpenAI强化学习微调ReFT

3.1 过程监督是否无效？

3.2 MCTS是否无效？