官网,《《甜蜜的惩罚2》第三季动漫在哪看啊》Cursor主题成员圆桌：用强化进建训练编码超等模型 2万字全文·附视频

【城主说】两天前Windsurf被Anthropic背刺了一次，顿时就要被禁其Claude模型API的挪用，得益的显然就是竞争敌手Cursor。且Cursor之前已经独享了Claude4.0的API挪用，抛开贸易竞争，从使用者角度，Windsurf的用户是很有可能迁徙到Cursor的。回归到Cursor自身，这两天颁布了正式版1.0。显然这是一个沉大的里程碑，本次访谈是Cursor官方团队深刻探求了将强化进建（RL）利用于代码天生的复杂性与前沿进展。对话涵盖了编码领域强化进建的独个性、嘉奖机造设计的挑战、高级工具与长高低文窗口的作用、新型把稳力架构与智能体影象的实现，以及构建高效RL基础设施和未来发展方向等主题议题。团队一致以为，成功的关键在于结合高质量的真实世界反馈信号、高效的工具利用、更长的高低文理解能力以及可能摊销推算成本的智能体设计。（原文未见成员名字，且用ABCD指代） ? 未来的编码智能体将可能处置更长的输入和输出序列，并能通过代码库专业化来复用知识，实现更高效、更精准的代码天生与批改。主持人: 对话的初始起点是强化进建(RL)。一个有趣的问题是，对编码进行强化进建与对其他更容易、更可验证的领域进行强化进建有什么分歧？无论是数学，还是像写作或其他更有风险的领域。编码模型的分歧之处是什么？成员A: 嗯，其中一点是，编码的作为空间要大得多。所以若是我们思考数学，推理在数学方面成效很好，由于最终的答案极度简短。因而，推理有助于提供大量的行动以得出答案。而编码，某种水平上，推理已经蕴含在答案中，对吧？成员B: 是的，并且为了得到答案，你必须挪用多个工具。因而，它不是像天生推理token、天生答案、获得嘉奖这样，而是看起来像天生一些token、挪用一些工具、从这些工具获得响应，并且你可能会迭代屡次。所以强化进建（RL），强化进建的大局看起来有点分歧，由于此刻你必须经历这种多步骤的工具挪用过程，并在此之上进行优化。成员C: 对我们来说，强化进建出格有趣，由于在收到模型实现了局后，我们并不总是有法子确定它是否真正解决了用户的问题，或者做了用户想要的事件。你知路，若是你有一个带有尺度答案的数学问题或者一个编码问题，那么你能够测试它是否得到了正确的答案。但我们但愿在用户并不总是通知我们它是否有效的情况下进行强化进建。成员D: 你以为在写作这样的领域会产生什么？你以为我们底子不会在那里使用强化进建，而只是但愿基础模型通过预训练变得足够好吗？你以为强化进建在那里改进事物存在一条蹊径吗？成员C: 目前在模型上进行的后训练往往使它们以一种极度生硬和正式的方式写作。但我我不以为那是模型的固有局限。我以为那只是它们被训练成要做的。成员A: 是啊，为什么不能训练模型来预测下一章节呢？当然能够，你能够扭转进建动态，让它起头预测整个序列，而不是预测下一个token。给定书确当前章节，模型应该尝试预测书的整个下一章节，有点像故事的走向。而后你就能够使用某种类似度怀抱来衡量下一章节与真实章节的类似水平。成员A: 由于我以为这些模型的局限性之一是，下一token预测指标并没有齐全捉拿到我们真正想要的器材，即天生一个齐全的序列。成员D: 嗯，那里有两个问题，对吧？有效地来说，就像让它在预测下一个token之前破费更多的推算量。而后还有，它现实上不必要预测确切的下一个词元，而是预测类似于下一章的齐全序列。成员C: 写作难题之处在于，产出好不好，比起编码，更多的是一个品尝问题。而对于编码，你真的只是但愿它能正常工作。然而对于写作，即便是经验丰硕的人也可能对它是好是坏产生吩扃。成员A: 是的，但是通过测试有时不起作用，由于通过测试没有捉拿到模型现实上做了什么来通过测试。所以即便忽略掉它起头做一些边缘情况来通过测试的“舞弊”行为，模型也可能起头做一些与工作齐全无关的事件，但依然能通过测试。并且那会给他们带来很好的回报，对吧？成员C: 对于代码质量，或者说你想要的器材，有点像是优雅的代码，并且长度不超过它所必要的长度。就像也许你想要最短的解决规划，或者说最幼的描述长度，这和数学类似。就像也许最美的证明就是最短的证明。我是说，这不齐全一样，但这里面存在着那个身分。成员C: 若是你只是想要最短的解决规划。我是说，我以为删除代码是很棒的。若是你你能提交一个精简 100 行代码的 PR，并且能保留所有职能，我会极度欣喜。主持人: 通常来说，好的嘉奖机造有哪些？我想这个话题涉及到了这些嘉奖。我以为我们在尝试很多分歧的嘉奖方式来训练强化进建模型。你最喜欢哪些设法？成员B: 它极度靠近真实情况。就像你说的，测试存在一些问题，例如，若是覆盖率不够，你可能会绕过测试，而没有真正解决问题。但是，若是有优良的测试，那么它就极度靠近于代码是否工作的真实信号。成员B: 但是，你知路，并非所有的事件都能通过测试来捉拿。所以，我们可能必要放宽一些前提，并思虑其他获取嘉奖的方式。因而，一个可能的设法是，例如使用一个特点变动的真实差距。并且，你知路，可能存在多种步骤来实现一样的扭转。所以，它不是一个美满的信号，但是你能够潜在地使用这些信息来援手产生一个验证信号。成员D: 那么嘉奖和测试的稀少性呢？也许一个弊端是你必须采样大量的轨迹，但只有其中一个通过。你只能得到这种要么1要么0的了局，好比，是否通过了所有测试？成员B: 是的，我的意思是，这使得训练在推算上变得昂贵，我想。但是，这里有一个很有趣的景象，若是你有足够的推算能力进行大量的推演，你能够通过从每个令牌以一种分支的方式进行推演来获得更稀少的信号，但这会变得极度昂贵。所以根基上，稀少性只是转化成了一个昂贵的推算问题。成员D: 嗯，有趣的是，若是对一个齐全的PR（Pull Request，拉取要求）进行测试，通�；峒扔行�，但这将极度难题和极度稀少，除非你破费大量的推算资源，对吧？由于很少情况下，例如在一个齐全的PR中，以模型目前的水平，它们可能通过所有的测试吗？但是，也许你想要的是可能将它分化成齐全PR的更幼部门，而后在这些部门中进行测试。这可能仅仅是，若是你有能力这样做，那会是一个严格的改进吗？成员B: 是的，我以为这很可能是一个改进。所以我想，是的，存在这样一个问题：若是工作极度难题，模型仅在千分之一的情况下能力正确实现，那么这种稀少的嘉奖就会成为一个真正的问题。若是它的成功率是，好比百分之一，或者更高，那么你可能就能够处置它了。但是的，所以一旦你把它做到那种像是千分之一的水平，或许你必要思考像是进一步分化，或者你以为我们正处在那种齐全投入的状态，以至于它可能有点过于稀少？成员C: 是的，我以为在某些情况下，你可能必要通过将它分化成组成部门，并但愿每个部门都正确来削减稀少性。我的意思是，在某种水平上，我以为你想要的是一种在职能高等同于真实情况或优良变动的变动。这很简洁。问题在于，这不仅是一个难题的指标，并且即便是评估一个候选解决规划是否满足这个指标，也等同于�；侍�。所以，这极度难题。你现实上做不到。但若是你能做一些靠近它的事件，也许那是一个好的方向。主持人: 最有趣的工具是什么？所以通常来说，你知路，我们已经看到了这种趋向，即分歧的尝试室选择分歧的工具集来评估模型的机能。那么O3，能够说针对终端进行了极度、极度优化的设计。并且，你知路，它偏差于喜欢这种十吩戽怪的模型，它只偏差于抓取和设置，不使用，你知路，它不想使用终端之表的任何工具。而后，云模型在那里偏差于可能设计你自己的搜索和编纂方式。是否有一些萦绕工具的有趣设法，你知路，人们会使用那些不仅仅是传统工具的器材？成员D: 我的意思是，我以为你能够做得比主题工具集好得多。我以为终端有意思的原因是它极度容易，对吧？就像你不必要构建一些超等花哨的工具。为了运行你的代理，你现实上只是给它一个shell的接见权限。我就能够在那里做所有的事件。单一性可能是最大的原因，对吧？所以一个例子就像是代码查抄工具的谬误。代码查抄工具的谬误会给你大量的信号，但很难获得这些信号，由于你必要运行一个说话服务器能力得到它。而后，现实上为肆意代码运行一个说话服务器是相当难题的。成员D: 所以你能够获得诸如代码查抄工具之类的器材。我们还有类似语义搜索的器材。并且我不知路，例如，我现实上不以为语义搜索能够仅通过静态代码文件为你找到一些器材。它会为你找到类似于使用足够多的跳数后的grep号令能找到的器材。但它会更快地找到。所以这意味着它更便宜，使用了更少的高低文窗口，并且更快。主持人: 好，所以也许这就引出了你还想要提高工具质量的概想。我不知路，你们怎么对待选择高质量的工具，以及若何衡量工具的简洁性，好比，你能够选择最单一的描述方式，也就是终端。而后你能够提出这样的问题，好比，你可能想要为模型提供越来越高质量的工具。成员A: 嗯，一种步骤是，你也能够使用工具来建模模型自身的行为。好比，我们知路好多推理模型喜欢大量推理和过度思虑，即便在它们现实上不必要起头推理的情况下也是如此。所以，你能够缓解这种情况的一种步骤是增长一个思虑工具，让模型意识到工作必要一些推理。而后它就起头挪用该工具来启用这种推理。成员D: 是的，我一向感触推理模型与自主代理工具挪用之间的互动方式很有意思。也许O3有点分歧，除非我没有过多地使用它。但它总是有点奇怪，它会在你提交用户新闻之后，甚至在它还没有看到任何器材之前就进行思虑，而后去挪用这些工具。成员D: 不是在使用每个工具之后。我的意思是，我以为，人们训练这些推理模型的理由是什么，以及他们通常是若何训练的？我感触，O1的第一个版本可能只是在角逐，好比竞争性编程，以及数学问题上进行训练。并且，那里的设法是，你但愿最终能得出一个好的答案。要么你能够向用户展示这个答案，要么你能够把它展示给掌管绘造图形和验证答案的器材。在此之前，你想要破费大量的tokens进行思虑。我想知路对于智能体轨迹，你现实上最终要向用户展示或验证的是什么？要么是一些文字，可能是用户能够看到的。但好多时辰，若是你没有问它一个问题，你只是要求它做出扭转。这就像，现实上就是编纂工具，对吧，当它，像，编纂一个文件时。所以我想知路当你只是要求模型，像，编纂代码时，你是否真的必要存在单独推理的这个概想。并且，就像，在训练时，它在那些工具挪用中轻易做什么。你让它轻易做什么，而不是限度，像，某些，像，好的推理部门。成员C: 另一个，像，极度有趣的工具，我们在思考的是查看PR（Pull Request）以及代码库中的人们一向在做什么。我的意思是，像，你能够对这些模型抱有的一个，像，生理模型是，它们是有能力的工程师，他们就像，总是处于，像，他们入职的第三天，对吧？并且他们获得，像，两天的，像，布景信息来，像，尝试并且，像，尽快地在代码库中进入状态。而后，你知路，第三天，他们被要求做一些事件。并且，你知路，若是你处于那种情况，我以为，你知路，一个合理的做法将是，你花那两天功夫试图理解你的同事一向在做什么，以及，像，为什么他们做出他们在做出的扭转，以及他们在接触什么代码。并且目前，你知路，这些模型并没有真正萦绕着查看PR和查看人们一向在做什么而构建。它们更偏差于以大块的方式消费代码并搜索有关的代码，这与这些模型的预训练方式十吩欹配。并且很显著，这依然是解决规划的沉要组成部门。但是，可能查看PR（Pull Request，拉取要求）的内容对我们来说也很有意思。主持人: 你以为代码和长高低文之间是若何相互作用的？所以至少在某衷戽怪的水平上，你能够说长高低文极度沉要，由于若是你只思考将所有内容限度在8k（8192）个token（令牌）以内，好比SONET和401以及GPT-4，它们最初的器材在某种水平上是等价的。所以你必要比关键高低文长度更大的器材，好比你至少必要5万到6万个token。你以为只有不休增长高低文长度，就能够改善强化进建（RL）的成效吗？你以为这两者之间是若何相互作用的？成员C: 我的意思是，趋向一向是高低文变得越来越长。把稳力机造极度善于利用长高低文，但是，你也知路，价值也越来越高。在技术层面，我以为长高低文一个极度有趣的方向是，若何维持成本的降低？若何在多个提醒词中复用缓存的高低文？这与最新的、能力比以往更强的模型尤其有关。但是，若是你没有奇妙地缓存和使用高低文，总成本可能会极度高。并且，当你起头钻研专业的代码库时，对于你想要做的事件来说，存在着大量的有关高低文。我以为这在某种水平上对代码来说可能是特殊的，由于，若是你是ChatGPT，或者你是Plot利用，在大无数情况下，用户带来的高低文并不多。他们有一个问题，通常是100个token。因而，你重要关切的是若何将人类知识的总和压缩成权沉，而后用它来为问题提供一个好的答案。你不太关切若何获取一百万个token，并从中获得能够有效利用的有效信息。由于这并非你的大无数用户所关切的事件。成员C: 我以为功夫越长越好，但也会有边际效益递减。动态地检索与查问有关的令牌这种步骤不是我们唯一必要的步骤，但它也相当不错。因而，某种混合机造，例如，某种机造能够亏损1亿个令牌，但可能，你知路，从每个令牌中获取的信息更少，对吧？并且利用它来获得对代码库的总体理解。但是，当你确切地知路你想做什么时，它能够记住哪些部门是有关的，并刷新对这些部门的影象，这可能才是持久来看最有意思的。主持人: 你们若何对待所有涌现出来的新架构？你知路，有一些趋向，它在某种水平上削减了，你知路，存在着正常的滑动窗口把稳力机造。并且，你知路，越来越多地你发现了这些，你知路，Llama4 甚至占有更复杂确把稳力机造。成员D: 但愿他们能鄙人一个模型中颁布它。但这是他们确把稳力机造，扩大性极度好。他们发现它的阐发优于把稳力机造。其主题工作方式是将把稳力分化成三个部门。其中一部门执行滑动窗口把稳力，因而会关注短期内产生的事件，好比最近的4000个token。另表两个部门有点意思，由于它根基上执行分块把稳力，每隔肯定数量的token，将其存储为键和值。而后查问将关注这些。而后从那之中，你得到你想齐全关注的前K个区块。而后你获取这些区块，而后你现实对它们进行齐全把稳力推算。我以为这非�？�，由于，是的，它应该能很好地实现逾越这个长高低文窗口的检索。成员C: 我以为它选取了使MOE（混合专家模型）工作的思想，并将其利用于把稳力机造，你知路，我们有这个剧本，用于将稀少性引入通过梯度降落训练的模型中，也就是你得到一些值，对它们进行Top K操作，而后对了局值进行softmax运算。这就是MOE的训练方式。其理想是，即便你没有获得所有事物的梯度，但事实上，它激励门控权沉对于更有关的部门（在MOE专家模型的情况下）相对于特定示例而言更大，这意味着稀少机造依然能够进建将其路由到最相宜的专家。就像国度安全局的案例一样，要针对更相宜的情境部门。我以为，这现实上就像是开发它并将其利用到分歧的领域。成员C: 我的意思是，评估长程高低文机造的难点在于，要真正相识基准情况，由于你知路，所有步骤在某种水平上都有效。你知路，就像你能够进行稀少把稳力。你能够，好比说，设置一些把稳力头进行部门关注，另一些进行全局关注。主持人: 好比，增长一个影象工具。所以这种，像是，与强化进建术语的交互，有点像是在其中增长状态，你能够在里面，像是，存储一部吩祺材，并但愿之后可能检索它。但问题在于，若何确切地激励模型现实存储优良的、有效的影象，以便未来使用？你们感触，强化进建会若何发展，能力让你们在很多期限内使用更复杂的有状态工具？成员D: 感触很有趣，事件在多大水平上朝着这样的方向发展，像是，并非所有器材都在模型中，而不是，像是，模型可能，像是，采取行动来让它做所有事件，对吧？像是，与其，像是，占有一个极度好的长高低文模型，能够进行检索，不如说，好的，此刻的模型，像是，极度善于使用检索这个工具。无论是通过语义搜索进行搜索，还是，像是，它被训练的方式，抓取。成员A: 像是，影象工具极度有趣，由于现实上有两个工具。像是，第一个工具是我想要存储，像是，这次特定交互的影象。另一个是检索它。某种水平上，像是，教导模型检索影象是相当直接的。你能够单一地在检索到那段影象，并且的确对对话有所援手时，赐与嘉奖。但是贮存这段影象要复杂得多，由于嘉奖并不取决于当前的轨迹，而是取决于分歧的轨迹。这也会增长训练期间的推算量，由于它意味着，根基上，为了从贮存这段影象中获得好的信号，我必须在一堆齐全不有关的随机轨迹中进行屡次发展。成员B: 是的，齐全正确。就像，一旦你进行了写入，你就是在贮存某种状态，以便在未来的轨迹中使用。所以，当你进行训练时，你既要进行发展来贮存它，又要进行后续的发展来检索它，利用嘉奖，并将其反向传布到写入部门。成员D: 是的�；蛐碛梅悄Ｐ脱盗返姆绞嚼刺焐图焖饔跋蠡岣菀�。我们前几天就在会商这个。相反，使用像Federico描述的系统，就像是在各类分歧的天生、使用和获取影象的方式之间进行评估。成员C: 我感触现实上是卢克的。由于费德里科提到的信誉分配问题，现实上很难反向传布到影象存储机造中。所以，取而代之的是，你得到一个基准，好比说，500个例子，关于智能体应该做的事件，以及一种查抄它是否做到的步骤。而后，你只需尝试分歧的规定、启发式步骤和提醒，关于何时存储影象以及何时健忘它。你只需衡量每一种步骤的阐发。而这不及以反向传布到某个器材中，由于它会很快学会对它们进行嘉奖破解。但是，若是你有一个启发式系统，它或许能够援手你找到最佳的那个。成员D: 是的。我想知路事件会造成什么样子，像是，短期内做的影象才有意思。我想知路这是否会在明年持续存在，还是会造成像雅各布描述的那种更持久的高低文机造，也许它会看到你之前所有的谈天纪录，并可能加强联系。成员D: 好比，你从之前的谈天纪录中获得的一件事是你在之前的PR中无法获得的，好比，现实操作，以及看到你的环境若何反映，对吧？而后你就能够从中进行更新，而PR则无法做到这一点。PR只是一种演示。是的，我以为它们对分歧的事件都有效。就像，我的意思是，你也在使用你在PR中始终不会真正看到的器材。就像，你在看，好比，终端。你在看，好比，代码查抄器若何响应，以及，好比，你的自动体式化工具可能若何响应，诸如此类。成员B: 并且看起来你能够从之前的PR中获得一些，好比，类似的个性化设置。好比，若是你的代码库中有一堆PR，你能够大体相识到，好比，什么样的更改，像这种，在代码库中进行某些编纂时，必须做出某些风格上的调整。你能够学会定期进行这些调整。好比，首先我更改这个文件，而后我更改那个文件。成员A: 是的，我对整个长高低文的故事极度乐观，由于，我的意思是，我有点不想当推算机专家，但新一代GPU的确让长高低文变得极度容易。好比，GB200和L72架构允许以两种方式极度轻松地进行超长高低文处置。一方面，你知路，由于你有这些通过NVLink网格互连的72个GPU，你能够进行超过8GPU网格的张量并行。这让你可能削减每个设备上存储KV确把稳力头数量。除此之表，这种灰色的CPU允许你在统一内存上存储KV，因而允许你每个设备存储更无数量的KV。成员D: 并且你可能险些不会产生任何减速，由于你能够根基上在加载下一个功夫步，并将其加载到GPU的过程中，交错进行推算。成员A: 是的，当你达到第0层时，你起头从CPU卸载你在第1层必要的KV。所以它根基上是免费的。你始终不必要KV，齐全的KV，存在于你的GPU内存上，除非你现实达到该层。成员D: 是的，但我的意思是，这只能扩大到，好比，一百万个高低文？好比，你依然必要支出这种二次方的价值，并且这总是会，好比，你能够超过，好比，仅仅是字面内存的成本。成员D: 72 它会便宜 72 倍，但这种便宜 72 倍是针对这种大规模的 n 平方级爆炸式增长。因而，或许你必要好比 100 万个联系人，并加上所有这些，好比，人们在增长的所有这些常数因子来使其更好，对吗？好比，时不断地使用滑动窗口，或许能够共享。我的意思是，美国国度安全局 (NSA) 是另一个很好的例子。它是一个很大的常数因子，但它的确是一个常数因子。成员D: 我们喜欢它。是的，我们称之为鱿鱼把稳力机造，由于我们把它设想成一只鱿鱼，其中每个文档都像一根分歧的触手。是由于这个原因吗？你感触呢，你为什么这么想？我不知路。我齐全不知路。谁想出了“鱿鱼把稳力」剽个名字？卢卡斯。这不太像卢卡斯会起的名字。“鱿鱼把稳力”的设法是，你根基上想要独立地关注每个文档。好比，每个文档城市独立地关注自身。而后在最后，你再关注所有内容。这样做的利益是，你此刻能够轻易代替文档。若是你关切约莫10、20、30个文档，我就能够缓存每个文档的键和值，而无需沉新支付预填充的成本。并且我能够仅仅在推理时代替它们。这对于产品中的各类职能来说，都极度有效，对吧？好比，对于标签页，当你检索信息并但愿急剧实现时，它就极度有效。对于代理，同样，当您使用语义搜索并阅读文件时，这将极度、极度有效。主持人: 我想我们在起头时就提到了这一点，但对某种测试使用进行大量优化是强化进建最初所选取的一种方式。但是，你们是否有更好的设法，关于若何更多地针对真实世界的使用进行优化，在这种情况下，人类在使用它，而不仅仅是为了优化测试覆盖率？好比，你这话是什么意思？大部门情况下，强化进建都在用来实现大量的测试用例。并且，你知路，大部门情况下，我们关切的不是模型实现测试用例。我们但愿它极度善于，好比，我不知路，在整个文件中增长节造台日志。我们但愿它善于各类更以报答中心的事件，而不是仅仅为了实现一项特定的微幼工作并通过一堆测试。这也许是对SweetBench的一种控诉，我知路Federico并不喜欢它。成员B: 是的，我的意思是，若是我们要获得这些更像是人类的回报，这些回报可能触及到一些品尝。好比，你想要代码质量，或者，是的，好比，打印出正确的器材�？雌鹄匆竦谜庑�，你必要做的就是从真实环境中的真实人类那里获得一些真实的信号。用户喜欢智能体所做的扭转吗？或者基于某些代理，好比，他们是否接受了这些编纂，或者…… 成员D: 是的，我的意思是，我以为有好多事件要做，好比，仅仅是看看用户所做的真实扭转是什么。而后由此，很好地相识，好比，当你沉新推出智能体时，它是否做了类似的事件。由于，好比，用户会进去，并且，若是它是谬误的，他们就会做一些分歧的事件。并且还有好多很酷的事件，当你有一个在后盾运行的器材时，你能够做，对吧？并且你能够，例如，让它尝试三、四次解决这个问题。尝试一堆分歧的模型。尝试一堆分歧的步骤，好比，把温度调高。而后选择，就像，我会浏览Cursor提供的所有选项。而后我会选择那个有效的，对吧？这对于训练嘉奖模型来说是一个极度好的信号。成员B: 是的，是的。那么，好比说，若是你屡次采样，你能够采取无数投票，或者你能够，好比说，占有一个嘉奖模型来选择最好的一个，这样你就能够在某种水平上缩幼差距。成员D: 若是我们的确占有嘉奖信号，好比说，有大量的关于嘉奖信号的数据，好比说，有那么多的发展，用户总是从二选一或三选一当选择。是的，我们若何以分歧的方式进行强化进建（RL）？我们是否会仅仅凭据那个信号训练一个嘉奖模型，并只专一于那个信号？成员D: 好比，另一个益处是若是你的嘉奖模型看到了真实情况，对吧？它有点像比原始模型知路得更多，或者说，比战术知路得更多，对吧？成员A: 你无法使其鼓和，对吧？由于通常情况下，针对嘉奖模型的强化进建的问题在于，约莫经过200步之后，你就差不多实现了。嘉奖持续上升，但模型现实上并没有改进。成员B: 是的，嘉奖模型的问题是，你知路，嘉奖会始终上升，但你真正关切的现实嘉奖会终场上升。但若是我们更靠近我们关切的事物，也许人们会在循环中做出真正的决定，那么…… 成员D: 不好心理，我只是想说，那么，你以为情况会更糟吗？好比，若是用嘉奖模型来匹敌这种极度清澈的信号，和占有可能看到真实情况的嘉奖模型相比，情况会更糟吗？成员C: 是的，我们正处于一个有趣的境界，对于很多这些模型来说，我们是模型和现实世界之间的接口，至少在模型被用于编码的水平上是这样。因而，在某种意思上，这应该是CA88工作，就是使模型与人们在现实世界中想要的器材相匹配。成员B: 是的，我以为存在一种衡量，例如，若是你能够针对现实世界进行无限采样，你能够直接优化它，了局会很好。但是若是你有一些约束，好比，这些样本成本很高，你必要更多地思虑，也许我们必要引入一个拥有真实情况（ground truth）的嘉奖，或者类似的器材。这样我们就能够在没有真实用户的情况下更多地进行离线优化，但是... 成员D: 我们是否定为，通过十吩斓繁地向用户推出，从而现实从代理模型获得真实的嘉奖信号是可能的？有什么理由不这样做呢？Jacob可能有一些见解。所以这个设法...我以为我们应该做这件事。成员C: 你以为我们应该做这件事。嗯，我以为，在某种水平上，我的说法是，新模型训练实现并起头与现实世界互动之间的循环越短，你的了局就越好。成员C: 你们都看到了OpenAI在回首性博客文章中关于讨好景象的描述吗？他们将模型起头变得讨好归罪于他们使用点赞和点踩数据进行训练。成员D: 点赞和点踩，是的，这绝对是一个糟糕的信号，我能够设想。由于它在使散布产生误差，对吧？左袒于会点击点赞和点踩的用户群体。成员A: 是的，我的意思是，反馈必须与用户维持一致，对吧？好比，你必要从用户愿意提供反馈的处所获取反馈。由于他们受到了激励。不然，那就是一个代理，是的。成员B: 我们能有的一个现实用处是，好比，我们有模型选择器。若是他们切换掉CA88模型，那可能是一个真实世界的信号，批注他们对我们提供的了局是否中意？成员D: 我想知路我们是否能够现实使用流失率，作为推导嘉奖的一种方式，对吗？流失率是真实的事实。我们想要，好比，优化，最幼化流失率。而后，好比，我们能否用它来，好比，从短期信号预测嘉奖？主持人: 这里有一个类似的问题，我感触所有的争论都集中在这种基于了局的事件上。但这种基于了局的事件现实上在R1时期得到了加强。长功夫以来，人们极度热衷于这些过程-嘉奖模型，但是...是的，过程-嘉奖模型怎么了？而后过程-嘉奖模型，你知路的，都隐没了。产生了什么，查理？成员B: 所以过程-嘉奖模型的问题在于，就像它们被实际的那样，你只是将轨迹传递给一个模型，而后在每个步骤得到一个分数，问题是，模型在仅仅提供分数方面并不那么正确，尤其是在中央步骤。它必须做出预测，好比，对于某些工作，这是否会导致正确的答案？所以产生的情况是，一旦你对这个嘉奖模型，这个验证器模型施加优化压力，你只能优化一幼部门。这和我们在会商的问题类似。但是若是你有这些真实信号，你能够像求解数学题一样，持续不休地进行优化。因而，你能够执行，好比，10...我以为DeepSeek R1执行了10000个强化进建步骤。大无数基于人类反馈的强化进建（RLHF）流程只执行，好比，100个。一旦你能执行10000个强化进建步骤，模型就能起头进建真正有趣的、与起点截然分歧的行为。所以，是的，关键真的在于你能对它施加几多优化。而使用PRM，你能够施加一些，但它受到限度。它远不如使用这些真实了局嘉奖来得多。成员A: 并且，你执行的步骤越多，情况就越糟，对吧？所以，好比，在一个多步骤场景中，你执行50次工具挪用，就会变得越发难题。这也诠氏缢为什么人们更偏差于使用PPO的变体，好比GRPO或RLU，由于价值模型在你的轨迹上存在某衷炜颈。成员B: 是的，所以，就像，对于数学和代码这类难题的工作，我以为，你知路，仅仅进展模型产生一个好的价值，这自身就是一个难题的认知工作。它们很难提供真正正确的价值。所以，是的，人们使用GRPO。你就像是，用蛮力进行屡次rollout以获得一个价值。而这更靠近于真实值。成员D: 我可能错过了前面的部门，但是，对于过程嘉奖模型与真正的了局嘉奖，这很有意思。但是，过程嘉奖模型与了局嘉奖模型相比呢？成员B: 因而，好比，一个过程嘉奖，现实上，若是进行直接比力，好比一个仅仅在最后产生嘉奖的嘉奖模型，与一个拥有中央步骤，并且你可能在对其进行搜索的嘉奖模型相比，后者拥有优势。但它也存在同样的问题，就像，你知路，但在两种情况下，你都只能优化到某种水平。成员D: 这是否意味着我们将训练过程嘉奖？好比，这是否意味着，嗯，好吧，我们已经决定了，好比，其中一件事，我们将钻营的嘉奖信号之一是嘉奖模型，我们会在肯定频率后对其进行沉新训练。好比，我们应该训练过程嘉奖吗？主持人: 所以我想这把我们引向了基础设施的问题。你们好多人都参加了强化进建基础设施的建设。有什么有趣的见解吗？什么是优良的强化进建基础设施？成员A: 强化进建基础设施有趣的一点是，它天然比训练基础设施更复杂，由于它成立在训练基础设施之上。就像，你用来为 SFT 或预训练执行前向和反向传布的所有工具，你必要它们在强化进建中也能高效运行。另一个有趣的事件是，此刻你还必要推理组件。并且，在这个你不像关注用户那样关注延长的机造中，推理组件也必须进行优化。你关注的是吞吐量。你关注的是尽可能大规模地获得尽可能多的 rollout（轨迹）。对于像 GRPO 这样的算法，情况甚至更有趣，由于你有一个提醒，并且你在为此提醒天生很多、很多、很多补全。而后，最终你将针对该提醒的所有这些补全进行反向传布。对于数学，开源社区的人们并不真正关切这个事实，由于在数学领域，大无数开源社区的人都在为解决这个数学工作而优化。极其微幼的提醒。因而，您能够单一地前后浏览所有序列，而无需不安您一向在沉新推算提醒。但是对于CA88情况，当您占有代理时，我们有这些巨大的提醒。因而，我们不能接受向后遍历所有共享一样提醒的这些回滚。因而，您起头进行优化，即与推理服务器更多地沉叠，例如，您可能已经从数据加载器中获得了提醒，并且在推理服务器已经在处置回滚时，您起头从该提醒中获取 KVs�；毓龇祷睾�，您已经占有 KVs，因而您只需转发已返回的回滚即可。而后，当您进行反向传布时，您已经为您的提醒筹备好了 KVs，因而您能够沉用这些 KVs，并且只对这些 KVs 进行一次反向传布。因而，您能够进行很多以前从未真正实现过的有趣的优化。成员A: 这也超等有趣，由于人们会针对分歧的情况来天生这些发展序列。好多人选取异步方式，即当你回溯当前发展序列时，模型已经在用旧权沉天生下一批次的发展序列。因而，天生发展序列的模型现实上是落后一步的。但这样能够大大加快训练速度，由于鄙人一次迭代时，你无需期待发展序列实现就能够起头进行前向和反向传布。当你必要同步权沉时，你必须终场所有过程并执行同步，这通常通过RDMA实现，或者你能够直接通过InfiniBand或Rocky等方式从内存中读取。成员C: DeepSeek为其DeepSeek v3的服务设置所做的一些事件，就是以吞吐量为导向的，即每秒的token数并不高，但分配给解码的每个GPU采样的token总数却极度好。所以我感触...我的意思是，他们用它来服务DeepSeek，这很合理，但若是你在做强化进建，那么进行这些衡量可能就更相宜了。成员A: 并且还必要PD解耦，对吧？这对于强化进建来说超等沉要，由于你只必要在一个提醒词上进行一次预填充，而后你的所有解码器工作过程就能够启动并援手你。是的。成员D: 我的意思是，还有另一种有趣的强化进建步骤，你不必要思考……在某些方面，它简化了事件。在某些方面，它使事件变得越发复杂，那就是若是你将你为用户所做的推理，复用为你现实为强化进建所做的推理。我是说，雅各布在为Tad做这方面的工作。成员C: 是的。只有你不必要提醒词的多个补全，若是你只关切你现实做了什么，而后你只想加强或不加强你所做的，你现实上不必要一个单独的推理组件用于强化进建训练过程。你只需看看真实用户现实产生了什么。这与沉新采样，而后使用嘉奖模型进行比力的情况相比，是一组分歧的衡量，由于它更多地依赖于可能非�＜本绲赝瞥鲂碌恼绞�。但它能够确保您在优化的战术与现实天生轨迹的战术之间的高度匹配。我们在为Tad思考这一点，由于我们单元功夫内能够获得大量数据，由于每当有人使用Cursor展示Tad建议时，我们城市获得反馈。所以这只是一个极度大的反馈量。所以我们有很无数据。因而，我们以为在这种情况下，这可能是有意思的。成员B: 是的，我以为强化进建存在一个方差问题，根基上，默认情况下，你会得到这些极度高方差的梯度估计。所以若是你有一大批这种经过强化进建的单次发展轨迹，那没问题。若是你没有一大批数据，你必要其他步骤来削减方差。这就是GRPO的用武之地，或者你能够训练价值函数。一旦你将基线化参与到强化进建中，这旨在削减梯度的方差。所以你有一个巨大的批次。理论上，足够大的批次应该能够工作。成员C: 大批次和短轨迹。你知路，Tad，它的轨�？雌鹄聪窦赴俑鰐oken的上升，诸如此类，而Agent会很愿意推出10000个token后再返回。轨迹的方差极度大，是的。成员A: 是的，好比Tad，若是它只产生一行，你将不得不进行很多许屡次推出，能力得到针对该提醒的分歧建议，对吧？所以，让它更合用于强化进建的一个技巧是，你起头向它增长更多作为，对吧？好比，像跳跃。成员C: 是的，是的。跳跃对于Tad来说是额表作为的一个沉要起源，由于若是没有跳跃，它时时不得不终场轨迹。但是若是它能够跳跃，那么它就能够持续前进，并且能够获得关于你是否接受那个跳跃以及在跳跃地址做了什么事件的反馈。成员B: 是的，所以我想gRPO和PPO之间的高档次区别在于，PPO有一个价值函数。所以这对于那些没有大量GPU内存的人来说有一些优势，由于此刻你不必要存储额表的价值函数权沉。但与此同时，你在进行更多的浮点运算，由于你必须为gRPO进行屡次发展。所以存在一种浮点运算和内存之间的衡量。是的，是的。所以就像你能够训练模型，它不会内存溢出（oom），但训练会破费很长功夫。并且，是的，最终，我感触尤其是在这种数学代码的设置中，价值函数无论若何都不是极度正确的。就像你在做的，这又回到了PRM（概率路线图）的事件，你在模型中进行前向传递，它提供了一些价值。它并不是真的那么正确。所以它对你没有太大的援手。相反，若是你只是进行屡次发展，并取均匀值并将其用作问题的价值，那么这比你将获得的价值更好。它更稀少，但它的确有援手。成员B: 这是一个好问题。好吧，并且gRPO已经存在很长功夫了。它是随着DeepSeek的数学论文一路颁布的，我记得那或许是一年多以前的事件了。应该是24年，像是24岁首之类的。成员B: 哦，好的。那就更早了，是的。我想可能是由于随着DeepSeek R1的颁布，强化进建（RL）总体上变得更受欢迎了。随着DeepSeek R1的颁布，gRPO也出现了，所以人们起头关注它。但是即便gRPO在R1之前就存在了，或许在R1颁布一年多之前，我想。成员B: 或者他们在基于真实数据进行强化进建。我以为在那篇论文中，他们也尝试了针对概率路线图（PRM）进行强化进建。是的，有趣的是，为什么这没有产生我们在R1中所看到的一样了局，当他们在DeepSeek数学时期进行这项钻研时。你以为是什么原因？所以，有一些关于此的有趣工作，好比尝试理解这一点�？雌鹄此坪跤牖∧Ｐ偷哪芰τ泄�，好比预训练数据中的某些器材，或者模型自身已经足够好，基础模型会进行肯定水平的回溯。也许不是很频仍，百分之一的样本或者类似的情况。但这已经足够了，一旦你进行大量的强化进建，它就会捉拿到这些行为并放大它们。所以可能仅仅是由于基础模型已经足够好，以至于它们能够进建这些有趣的行为。成员A: 问题在于...所以人们已经在像Quan32B这样的模型上复现了类似的了局。问题在于成立基础设施，使你可能训练大型的DeepSeek模型。这就像是一项巨大的提升，对吧？这必要大量的推算�；购奔�，对吧？就像DeepSeek获得了大量的强化进建数据，而我们在开源领域并没有真正占有这些数据。我们或许有一个10万到20万个示例的数据集。成员B: 是的，我们会商了好多关于输入高低文的内容，但我以为输出高低文将会是一件大事。出格是若是你看看像O3这样的器材。这与某些其他模型极度分歧，那些模型会无休止地进行搜索。它会构建正确的高低文，而后知路若何解决问题。是的，我预计我们会看到一些模型可能执行极度长的工具挪用序列，而后它们... 成员B: 是的，是的。我以为你应该可能摊销其中的一部门成本。我的意思是，是的，根基上就像有一个代理可能查看轨迹，或者查看代码库中之前已经实现的事件，并且从中做出有效的揣度，而后将其存储在某个处所。成员D: 是啊，若是世界看起来像你那样，那就太糟糕了……要使用那样最好的代理，或者使用一个足够好的代理，你必须使用像O3这样的速度和成本的器材。成员D: 我以为长高低文或某种代码库专业化将极度沉要。我以为有些器材，你知路，它可能……它有点像可能复用从前所做的工作，可能大体相识这个代码库是若何运作的。成员A: 你怎么看？关于你能够扩大输出令牌数量的另一个事实是，它使训练越发拥有样本效能，对吧？就像通常在有监督微调（SFT）中，我们有这些大的提醒。并且你知路，模型现实上只从输出令牌那里获得信号。成员D: 嗯，这也使得它有点低效，对吧？由于若是是一个超长的输出，你必要进行信誉分配，好比，哪些令牌是沉要的？而后像使用GRPO，若是我们以CA88方式进行，你将在每几个令牌处进行采样，好比在这个巨大的序列中。我想它变得数据高效了。它数据高效吗？它是数据高效的，但不是推算高效的。成员B: 我的意思是，我以为我们正处于，或者说在靠近这样一种状态，尤其是在说话模型训练方面，即最高质量的数据相对于可用的推算资源而言变得越来越稀缺。好比，最好的数据比推算资源稀缺得多。那么，你到底要若何使用所有这些推算资源呢？所以，你知路，那些看起来推算成本极度高昂的步骤可能才是相宜的。是的。

                                《《甜蜜的惩罚2》第三季动漫在哪看啊》这只是管理层设定的目标，同时他们在等待确定IMG资金中属于自己的份额——这3亿欧元是意甲联盟提起法律诉讼的成果，自2019年以来一直被冻结，如今终于解冻。这笔资金将在6月底前到账，其中相当一部分将属于尤文图斯，这将为俱乐部带来急需的“氧气”和操作空间。都灵方面早已迫不及待。这位企业家还再次详细介绍了自己竞选纲领中的主要措施，包括把俱乐部还给会员、保护俱乐部免受任何私有化企图影响、在巴尔德贝巴斯建设会员城，以及在球队重新赢得欧冠之前将年度会费降低50%。他正与弗洛伦蒂诺展开选举竞争。《《甜蜜的惩罚2》第三季动漫在哪看啊》动漫《MEMEME》齐全版本场比赛，对阵双方为阿纳尔迪以及科博利，两人都是意大利人，阿纳尔迪目前排名世界第104，而科博利则是第15。在解释自己为何退赛时，阿纳尔迪表示：“从昨天晚上开始，身体就不舒服，一直呕吐，医生给我看了病还开了药。”值得注意的是，就在交表前夕，Anthropic刚刚宣布完成了总额高达650亿美元的H轮融资，公司估值达到9650亿美元，已超过其主要竞争对手OpenAI，成为全球最大的私营企业之一。
                            

                                20260607 ? 《《甜蜜的惩罚2》第三季动漫在哪看啊》比利时队的塞纳·拉门斯和土耳其国门阿勒泰·巴因迪尔都将身披12号球衣，担任替补守门员。而在非洲，科特迪瓦的阿马德·迪亚洛得到了15号，马兹拉维是摩洛哥的3号。《亚洲L码和欧洲M码的区别》仅仅一周，小林就变了。他蹦蹦跳跳地跑进教室，开心地和老师说：“爸爸带我去公园玩了！”那一周，他上课专注了，练习题破天荒的做了个全对；再后来，他的学习状态稳定，脸上的笑容也多了。
                            

? 苏来旭记者贾化明摄

                                20260607 ? 《《甜蜜的惩罚2》第三季动漫在哪看啊》房子是用来住的，学区房是用来上学的，有需求就买，不着急就租房呗。我还是这话，如果有高息+问题的理财就租房合适，没有的才买房呢。另外现在情况是北京的平均租金回报率已经超过同期银行利率，历史上这种情况就三次，每次都是相对的房价低谷期，现在是第四次。《我伴侣中字ID》韩剧这位宝妈回忆说，她赶紧打开车门往保安岗方向一边走一边呼救，每走一步都很艰难，眼前发黑，没一会儿倒在地上。“我心里想着，女儿还在车里，我强撑着爬起来求救，直到模糊的视线看到保安大哥向我跑来，我一边说着我女儿在车里，一边又倒了下去……”她后来有点意识了就问女儿怎么样，说是让警察带去派出所了，给她买了好多吃的，好感动！还有基地的保安，十分感谢，一直守护直到救护车来。“一切都太突然，当时满脑子都是女儿，只希望她能被抱出来照顾，联系我家人来带她，完全没想自己会怎么样！”
                            

? 刘云鹏记者韩树林摄

                            ? 除拜仁球星伊藤洋辉外，日本国家队主教练森保一还征召了另外五名德甲职业球员进入大名单。法兰克福的堂安律、美因茨05的佐野海舟、弗赖堡的铃木唯人、不莱梅的菅原由势和沃尔夫斯堡的塩谷司也在阵容中。球队由队长远藤航领衔，这位前斯图加特球员现效力于利物浦。windows11国产免费百度最新版下载