10行代码,AIME24/25增加了15%!揭示了大型模型增强的熵机制

作者: 365bet官网 分类: AG真人 发布时间: 2025-06-07 10:26
那些介绍本文的人来自北海大学,上海AI实验室和其他机构。本文的共同首先作者Cui Ganqu,Zhang Yuchen和Chen Jiacheng来自上海AI的实验室,其研究的方向是增强大型模型的推理。与该场景相对应的是上海AI实验室的Cheng Yu教授,上海AI实验室的周·鲍恩教授和Tsinghua University的助理教授Ding Ning。大自然永远不会改变任何改变,除非其利益是通过熵的增加来提供的。通过研究加固,我们应该如何为自己的利益做熵?最近,上海人工智能实验室,Tsinghua大学,UIUC和其他机构的研究人员的工作表达了主要强化研究中熵变化的Mekanismo。该研究的内容主要如下:增强研究中熵下降的问题是D恩格和绩效之间的经验转换公式是4个家庭和11个模型的摘要,这证明了战略熵在增强研究中的重要性。从理论和技能的角度来看,推动熵研究研究的力量:行动的可能性(模型令牌的输出)与获得的相应益处之间的协方差。从这个角度来看,已经提出了两条简单的(10行代码更改),但非常有效(AIME24/25 + 15%)熵研究研究方案,在加强学习训练的过程中意识到对模型的持续探索。纸的标题:ANG增强研究熵机制的加固模型链接链接:https://huggingface.co/papers/2505.22617代码存储库:https://github.com/prime-rime.com/prime-rlopy-mechanism-mechanism--f-rl1。在模型的教育研究的大型模型李的大型模型中,对熵崩溃的强化研究的主要挑战ES在使用探索权衡中,即平衡重复的方法来验证和寻找新技术。对于探索,测量勘探方法的潜在方法的关键指标是熵方法,这反映了行动选择过程方法的不确定性。在强化研究中,预防熵方法的衰减被认为是大多数算法的关键。在传统的强化研究中,研究人员通常通过正则化方法积极地调节方法诱饵。对于大型语言模型,尽管尚未完全研究了通常的熵方法,但我们在大量实验中发现了一种有趣且一致的模式:在仅在几个训练的步骤中,方法将方法紧紧降至零,表明该方法已经变得具体。缺乏直接导致验证表现验证表现的勘探功能也是同时粘在瓶颈上。进一步宣布,分析的数量在没有熵干预(例如熵或KL正则化的丢失)的情况下,流动性(R)的性能(R)完全由熵(H)方法完全确定,并且适当的曲线与函数r = -a Exp(H)+ B的简单扩展是一致的,如图Inbottom所示。本质上,这些技术是以无法预测的方式奖励的熵不确定性。图1显示了模型的大型模型研究中落入熵的问题。在QWEN,MISTRAL,LLAMA和DEEPSEEK的家族中,我们已经证明了这一点:图2不同家庭模型中熵倒塌的经验定律获得了两个重要信息:(1)与规模定律相似,使用 - 探索曲线的使用时,确定了鉴于数据方法和实践数据的方法。我们被允许猜测ADVA中方法的性能增强研究的不断变化,并从小型模型中减去模型的巨大性能。 。因此,简而言之,为了实现可扩展的增强学习,有必要打破熵瓶颈。图3预言模型在实践的早期制定器中的最终表现4小型模型预测模型2。大型强化模型中的熵与协方差之间的关系学习了解决此问题的关键在于理解现象背后的机制:为什么单键入探索方法降低了?直到今天,我们从理论和实验维度研究了该方法的动态特征。主要发现表明,对于使用SoftMax方法的LLM,两个连续步骤之间的熵变化与动作对数的可能性与相应的logit变化之间的协方差成正比。此外,在梯度和自然方法的方法中梯度算法,logit差异与动作的优势成正比。直观地,高级和高概率的动作将减少熵方法,而具有高优势的罕见动作会增加熵。 Ang teoretikal na konklusyon na ito ay na -eksperimento na na -verify: Sa maagang yugto ng pagsasanay, ang diskarte ay nagpakita ng mataas na covariance sa data ng pagsasanay, na nagpapahiwatig na ang kumpiyansa ng diskarte ay mabuti, kaya Ligtas Itong Magamit Ang Mataas Na Tilapon Ng Kumpiyansa,Palakasin Ang Kumpiyansa在Mabawasan Ang Entropy(Ito Rin Ay Ay Ay Ay Ay Ay Ay ay ay ay ay ay ay ay ay ay ay ay sa iLang mga kamakailang kamakailang kankailang konklusyon konklusyon sa trabawa sa trabawa sa trabawa sa trabawa na mabawasan ang na mabawasan ang gentopy unpopy upagag upagagagbuti the表演);随着训练的进行,协方差逐渐下降,但保持积极,并且熵方法不断拖放到较低的水平。方程式1的熵和协方差的理论综述图5熵和协方差的经验分析3。熵增强剂基于协方差的t学习方案我们首先通过实验证明了传统的熵/KL方法对大型模型的影响很小。图6通过传统正规化方法的失败对动态熵的分析表明,高协方差可防止刺激加固的可伸缩性,从而为改善方法的熵提供了方向 - 限制了协方差图表大小的大小的限制。基于此,我们设计了两个熵,夹子-COV和KLV控制技术,分别用损失替换夹子和PPO-KL程序。 Clip-CoV is randomly selectively selected a small number of high covariance tokens and removes its gradient: Formula 2 clip-covkl-cov is simpler, and directly imposes a KL penalty to the token with the largest part of covariance: the formula 3 KLOV experimentally proves to be throughOS of the threshold parameters, the stream of non-low-level flow can be active: 7 Entropy control by clip-cov和kl--COV表明,在数学推理等活动中的表现更好,我们的QWEN2.5-32B增长了6.4%,尤其是在AIME24/25(例如AIME24/25)的挑战性数据集中,超过15%以上。图8动态熵练习,输出长度,夹子-COV和KL-COV方法的性能图9夹和KL-COV的性能这项研究着重于解决在大型语言活动中学习研究研究的问题。通过实证检查,我们发现绩效的提高通常以牺牲勘探能力为代价,而这种权衡使无法预测的绩效高于模型改进的限制。为了深入了解这一现象,我们回顾了熵的动态定律从理论层面变化,并提出了两种简单的正则化cov-cov和kl-cov技术,从而有效地通过直接调节高得分协方差来阻碍熵的崩溃。在最前沿的力量计算训练的逐渐从训练阶段逐渐变为训练后阶段,尤其是对强化的研究。在通过增加计算能力来扩大加强研究的道路上,保持勘探能力,发现新的道路并取得持续改进非常重要。这样,我们可以更好地利用计算能力。但是,实现加固的发展规模,需要破坏可观的熵的极限。我们期待这项研究,该研究为作用的熵机理提供了新的见解,促进理解,审查和优化基本的LLM增强机制,并促进对更高智能水平的增强的研究。

如果觉得我的文章对您有用,请随意打赏。您的支持将鼓励我继续创作!