名器尤物挨cao日常h-www.国产视频-一级黄毛片-黄大色黄大片女爽一次-欧美在线视频免费观看-九色精品-freexxxxhd高潮-嗯~用力啊~嗯~c我~白洁-老师的肉丝玉足夹茎,99riav久久精品riav,大肥胖大肥胖bbwbbwd,国产成人精

麻豆传媒色-6488avav

DeepConf由Meta AI與加州大學(xué)圣地亞哥分校提出,中心思路是讓大模型在推理進(jìn)程中實(shí)時(shí)監(jiān)控相信度,低相信度途徑被動(dòng)態(tài)挑選,高相信度途徑則加權(quán)投票,然后統(tǒng)籌準(zhǔn)確率與功率。在AIME 2025上,它初次讓開源模型無需外部東西便完結(jié)99.9%正確率,一起削減85%生成token。

怎樣讓模型在考慮時(shí)更聰明、更高效,還能對(duì)答案有掌握?

最近,Meta AI與加州大學(xué)圣地亞哥分校的研討團(tuán)隊(duì)給出了一個(gè)令人振奮的答案——Deep Think with Confidence(DeepConf),讓模型自傲的深度考慮。

論文地址:https://arxiv.org/pdf/2508.15260

項(xiàng)目主頁:https://jiaweizzhao.github.io/deepconf

這項(xiàng)新辦法經(jīng)過并行考慮與「相信度挑選」,不只讓模型在世界頂尖數(shù)學(xué)比賽AIME 2025上拿下了高達(dá)99.9%的正確率。

可以說,這是初次運(yùn)用開源模型在AIME 2025上完結(jié)99.9%的準(zhǔn)確率,而且不運(yùn)用任何東西!

而且在堅(jiān)持高質(zhì)量推理的一起,將生成的token數(shù)量削減了84.7%。

DeepConf還為并行考慮(parallel thinking)帶來了多項(xiàng)硬核優(yōu)勢:

  • 功能飆升:在各類模型與數(shù)據(jù)集上,準(zhǔn)確率均勻提高約10%
  • 極致高效:生成token數(shù)量銳減高達(dá)85%
  • 即插即用:兼容任何現(xiàn)有模型——無需額定練習(xí)(也無需進(jìn)行超參數(shù)微調(diào)!)
  • 輕松布置:在vLLM中僅需約50行代碼即可集成

以DeepConf在HMMT 25(哈佛–麻省理工數(shù)學(xué)比賽)的第11道標(biāo)題上的推理進(jìn)程為例。

中心思維是DeepConf經(jīng)過「相信度信號(hào)」挑選推理途徑,然后得到高質(zhì)量答案,并在功率與準(zhǔn)確率之間取得平衡。

  • 橫軸(token index):標(biāo)明模型生成的推理進(jìn)程(跟著token逐漸添加)。
  • 縱軸(confidence):標(biāo)明每條推理途徑在該進(jìn)程上的相信度水平。
  • 綠色曲線:標(biāo)明不同推理途徑的相信度軌道,越深的綠色標(biāo)明相信度越高。
  • 赤色叉叉:低于相信度閾值的推理途徑,被動(dòng)態(tài)篩除。
  • 綠色對(duì)勾:終究被保存下來的高相信度途徑。
  • 終究表決:這些途徑在依據(jù)相信度加權(quán)的大都表決下,終究得出一致答案:29。

DeepConf在生成進(jìn)程中,會(huì)持續(xù)監(jiān)控推理途徑的相信度,低相信度途徑被及時(shí)挑選,只保存「更有掌握」的途徑,提高全體準(zhǔn)確性。

經(jīng)過準(zhǔn)確率對(duì)比曲線,上圖可以看出縱軸是accuracy(準(zhǔn)確率),黃色曲線(DeepConf)比藍(lán)色曲線(規(guī)范辦法)顯著更高。

標(biāo)明DeepConf在相同投票規(guī)劃下能到達(dá)更高的準(zhǔn)確率。

下圖橫軸是token數(shù)量(推理所需的計(jì)算成本),黃色曲線在準(zhǔn)確率堅(jiān)持較高的一起,token耗費(fèi)顯著更少。

標(biāo)明DeepConf大幅削減了無效token的生成,推理功率更優(yōu)。

DeepConf讓模型不再「想入非非」,而是高效地走在高相信度的推理軌道上。

DeepConf支撐兩種作業(yè)形式:

  • 離線形式:依據(jù)相信度挑選已完結(jié)的推理途徑,然后依據(jù)質(zhì)量對(duì)投票進(jìn)行加權(quán)。
  • 在線形式:當(dāng)相信度實(shí)時(shí)降至閾值以下時(shí),當(dāng)即間斷生成。

DeepConf的訣竅是什么?

其實(shí),LLM知道自己何時(shí)開端不確認(rèn)的,僅僅咱們一向沒有仔細(xì)重視過他們的「考慮進(jìn)程」

之前的辦法在完好生成之后運(yùn)用相信度/熵用于測驗(yàn)時(shí)和強(qiáng)化學(xué)習(xí)(RL)。

DeepConf的辦法不同,不是在完結(jié)后,而是在生成進(jìn)程中捕捉推理過錯(cuò)。

DeepConf實(shí)時(shí)監(jiān)控「部分相信度」,在過錯(cuò)的推理途徑耗費(fèi)數(shù)千個(gè)token之前及時(shí)中止。

只要高質(zhì)量、高相信度的推理途徑才干保存下來!

DeepConf是怎樣「用相信度挑選、用相信度投票」?

這張圖展現(xiàn)了DeepConf在離線考慮時(shí)的中心機(jī)制:

它先判別哪些推理途徑值得信任,把不靠譜的途徑提早除掉,再讓靠譜的途徑進(jìn)行加權(quán)投票,然后得到一個(gè)更準(zhǔn)確、更高效的終究答案。

首要是每一token「有多確認(rèn)」

當(dāng)模型在寫推理進(jìn)程時(shí),其實(shí)每個(gè)詞(token)背面都有一個(gè)「決心值」。

假如模型覺得「這一步答案很靠譜」,決心值就高。假如它自己都拿不準(zhǔn),這個(gè)決心值就會(huì)低。

上圖里用不同深淺的綠色和赤色標(biāo)出來:綠色=更自傲,赤色=不自傲。

其次,不但要看單token,還要看全體趨勢

DeepConf不只看某一個(gè)詞,而是會(huì)滑動(dòng)窗口:看看一小段話里的均勻決心值,衡量「這段話全體是否靠譜」。

要點(diǎn)看看終究幾句話的決心值,因?yàn)榻K究答案、終究定論往往決議于結(jié)束。

DeepConf也會(huì)記下這條推理鏈里最差的一步,假如中心有顯著「翻車」,這條途徑就不太牢靠。

這樣一來,麻豆傳媒色每條完好的推理鏈路都會(huì)得到一個(gè)歸納的「相信度分?jǐn)?shù)」。

終究,是先挑選,再投票。

當(dāng)模型并行生成很多條不同的推理途徑時(shí):

  • 第一步:過濾,把「相信度分?jǐn)?shù)」排序,最差的10%直接丟掉,防止糟蹋。
  • 第二步:投票,在剩余的推理鏈里,不是簡奇數(shù)票,而是依照相信度加權(quán)投票。

也便是說:一條高相信度的途徑,它的定見重量更大;低相信度的途徑,即使答案相同,也不會(huì)拉高太多票重。

終究看一下成果,在圖的右邊可以看到:有的途徑說「答案是109」,有的說「答案是103、104、98」。

但因?yàn)橹巍?09」的途徑更多、而且相信度更高,所以終究投票選出了109作為答案。

成果刷爆99.9%,比GPT-5還高

離線形式成果:在AIME 2025上到達(dá)99.9%的準(zhǔn)確率(基線為97%)!

在5個(gè)模型×5個(gè)數(shù)據(jù)集上完結(jié)普適性增益。

在一切設(shè)置下均取得約10%的安穩(wěn)準(zhǔn)確率提高。

在線形式成果:在一切基準(zhǔn)測驗(yàn)中節(jié)約33%-85%的token!

在AIME 2025基準(zhǔn)測驗(yàn)中,運(yùn)用GPT-OSS-120B,在削減85%的token耗費(fèi)下,仍到達(dá)97.9%的準(zhǔn)確率。

該辦法適用于從8B到120B的各類開源模型——在不獻(xiàn)身質(zhì)量的前提下完結(jié)實(shí)時(shí)高效。

在離線環(huán)境中對(duì)相信度衡量進(jìn)行基準(zhǔn)測驗(yàn)。陳述的數(shù)值為準(zhǔn)確率(%)。

Cons@512和mean@512別離標(biāo)明運(yùn)用512條推理軌道進(jìn)行的大都投票成果,以及均勻相信度的均值。一切試驗(yàn)均重復(fù)進(jìn)行了64次。

在在線環(huán)境中對(duì)DeepConf進(jìn)行基準(zhǔn)測驗(yàn)。

在投票規(guī)劃預(yù)算為512的條件下,陳述大都投票辦法與DeepConf(高/低)的辦法的準(zhǔn)確率(%)以及生成的token數(shù)量(×10?)。

依據(jù)相信度的深度考慮

研討者的考慮是:究竟怎樣把「相信度」用得更奇妙,讓模型既想得更準(zhǔn),又想得更快呢?

正如前文所述,這兒可以分紅兩個(gè)運(yùn)用場景:

  • 離線考慮:等模型把一整條推理途徑都寫完了,再回頭去評(píng)價(jià)每條途徑的相信度,把靠譜的成果聚合在一起。這樣做的優(yōu)點(diǎn)是能最大化提高答案的準(zhǔn)確性
  • 在線考慮:在模型一步步生成推理的進(jìn)程中,就實(shí)時(shí)參閱相信度。假如發(fā)現(xiàn)某條思路不靠譜,可以及時(shí)停掉,防止糟蹋算力。這樣能邊走邊挑選,提高功率乃至精度

離線考慮

在離線考慮形式下,每個(gè)問題的一切推理途徑均已生成。

此刻的中心應(yīng)戰(zhàn)是:怎樣聚合來自多條途徑的信息,然后更準(zhǔn)確地確認(rèn)終究答案。

針對(duì)這一點(diǎn),研討人員選用了規(guī)范的大都投票(majority voting)辦法。

  • 大都投票(Majority Voting)

在規(guī)范的大都投票中,每條推理途徑得出的終究答案對(duì)終究決議計(jì)劃的奉獻(xiàn)是平等的。

設(shè)T為一切已生成途徑的調(diào)集,關(guān)于恣意途徑t∈T,設(shè)answer(t)為從該途徑中提取的答案文本。

那么,每個(gè)候選答案a的票數(shù)為:

  • 相信度加權(quán)大都投票

這個(gè)辦法不再平等對(duì)待每條途徑的投票,而是依據(jù)其相關(guān)途徑的相信度,為每個(gè)終究答案賦予權(quán)重。

關(guān)于每個(gè)候選答案a,它的總投票權(quán)會(huì)被重界說為:

  • 相信度過濾

在加權(quán)大都投票的基礎(chǔ)上,還需求使用相信度過濾,才干在將投票更集中于高相信度的推理途徑。

詳細(xì)來說便是,經(jīng)過途徑的相信度分?jǐn)?shù),挑選出排序前η%的途徑,然后保證只要最牢靠的途徑參加終究答案的決議。

挑選前10%:專心于相信度最高的少量途徑。適用于少量途徑就能解決問題的場景,但危險(xiǎn)是假如模型存在成見,簡略選錯(cuò)答案。

挑選前90%:歸入更廣泛的途徑。這種辦法能堅(jiān)持多樣性、削減模型成見,在各途徑相信度相差不大時(shí)特別穩(wěn)健。

圖3闡釋了各種相信度衡量辦法以及依據(jù)相信度的離線考慮的作業(yè)原理。

算法1則供給了該算法的詳細(xì)完結(jié)。

在線考慮

在線考慮形式經(jīng)過在生成進(jìn)程中實(shí)時(shí)評(píng)價(jià)推理途徑的質(zhì)量,來動(dòng)態(tài)中止低質(zhì)量的途徑,然后保證其在后續(xù)的相信度過濾階段大概率能被掃除。***麻豆傳媒色***

對(duì)此,研討人員提出了兩種依據(jù)最低分組相信度,并會(huì)自適應(yīng)地間斷生成進(jìn)程并調(diào)整推理途徑的預(yù)算的辦法:DeepConf-low和DeepConf-high。

其間,共包含兩大中心組件:離線預(yù)熱與自適應(yīng)采樣。

  • 離線預(yù)熱(Offline Warmup)

DeepConf需求一個(gè)離線預(yù)熱階段,以便為在線決議計(jì)劃進(jìn)程樹立間斷閾值s。

關(guān)于每個(gè)新的提示詞,首要生成Ninit條推理途徑(例如,Ninit=16)。

間斷閾值s界說為:

在一切裝備下,DeepConf-low均一致選用前η=10%的戰(zhàn)略,而DeepConf-high則一致選用前η=90%的戰(zhàn)略。

在在線生成進(jìn)程中,一旦某條推理途徑的相信度低于預(yù)熱階段的數(shù)據(jù)所設(shè)定的、可以挑選出相信度排序前η%途徑的最低門檻,生成進(jìn)程就會(huì)被中止。

  • 自適應(yīng)采樣(Adaptive Sampling)

在DeepConf中,一切辦法都選用了自適應(yīng)采樣,如此就可以依據(jù)問題難度動(dòng)態(tài)調(diào)整所生成推理途徑的數(shù)量。

問題難度經(jīng)過已生成途徑之間的一致性程度來評(píng)價(jià),其量化方法為大都投票權(quán)重與總投票權(quán)重的比值:

若β<τ,則標(biāo)明模型未能就當(dāng)時(shí)問題達(dá)到一致,推理途徑的生成將持續(xù)。反之,則間斷生成,并運(yùn)用現(xiàn)有途徑確認(rèn)終究答案。

因?yàn)檫x用的是最低分組相信度,一個(gè)足夠大的預(yù)熱集便能發(fā)生對(duì)間斷閾值s的準(zhǔn)確估量。

因而,任何被在線中止的途徑,其分組相信度必定低于s,也就會(huì)被離線過濾器所掃除。

這樣,在線流程便能近似于離線的最低分組相信度戰(zhàn)略,而且跟著Ninit的添加,其準(zhǔn)確率會(huì)迫臨離線戰(zhàn)略的準(zhǔn)確率。

圖4中闡釋了在線生成的進(jìn)程。

算法2則供給了該算法的詳細(xì)完結(jié)。

詳細(xì)進(jìn)程,咱們就用上圖里的這道「勾股三元組計(jì)數(shù)」問題舉個(gè)比如。

DeepConf要在生成推理的一起判別:哪條思路靠譜、該持續(xù);哪條思路不靠譜、該盡早停,然后少花token、又更準(zhǔn)。

兩個(gè)階段:先定閾值,再在線篩

1. Offline Warm-up(上圖右側(cè),離線預(yù)熱)

先離線跑幾條完好的推理軌道(Trace 1~5),給每條算一個(gè)「全體有多靠譜」的分?jǐn)?shù)。

按分?jǐn)?shù)做一次相信度過濾,好的軌道在上方(綠色),差的在下方(赤色)。

據(jù)此確認(rèn)一個(gè)間斷閾值s(圖中綠色箭頭標(biāo)示)。

簡略來說便是低于 s 的,通常是不值得持續(xù)的推理。

這一步就像「熱身+標(biāo)定」,模型把「該不該停」的門檻先定好。

2. Online Generation(上圖中心,在線生成)

正式解題時(shí),一起打開多條并行思路(多行的方塊序列)。

對(duì)每條思路,體系滾動(dòng)地評(píng)價(jià)「這段話最近一小段的牢靠度」(圖中方塊從左到右代表一步步的生成)。

左下 & 右下的小曲線各自標(biāo)明模型的「掌握」程度。

左下綠曲線標(biāo)明模型對(duì)接下來的詞更「有掌握」,示例文本是正派的數(shù)學(xué)推理(如「勾股三元組公式…」),這類內(nèi)容通常被保存。

右下紅曲線標(biāo)明模型在猶疑或「自我置疑」,示例文本是「讓我再想想、回頭查看一下…」,這類猶疑/兜圈子的片段常被判為低相信度,然后觸發(fā)在線早停。

先離線確認(rèn)「牢靠度閾值s」,再在線用s給并行思路「邊走邊查看」。

不靠譜就當(dāng)場叫停,靠譜的持續(xù)前進(jìn)。這樣就能做到既快又準(zhǔn)了。

作者介紹

Yichao Fu

論文一作Yichao Fu是加州大學(xué)圣地亞哥分校(UC San Diego)計(jì)算機(jī)科學(xué)與工程系的博士生,師從張昊教授,也便是老朋友Hao AI Lab的負(fù)責(zé)人。

此前,他在浙江大學(xué)取得計(jì)算機(jī)科學(xué)學(xué)士學(xué)位。

他的研討愛好主要為分布式體系、機(jī)器學(xué)習(xí)體系以及高效機(jī)器學(xué)習(xí)算法,近期專心于為LLM的推理進(jìn)程規(guī)劃并優(yōu)化算法與體系。

他參加的項(xiàng)目包含:Lookahead Decoding、vllm-ltr和Dynasor。

參閱資料

https://jiaweizzhao.github.io/deepconf/

https://huggingface.co/papers/2508.15260

https://x.com/jiawzhao/status/1958982524333678877

本文來自微信大眾號(hào)“新智元”,作者:定慧 好困,36氪經(jīng)授權(quán)發(fā)布。