即便是最佳模型 ,
Grok 4在創(chuàng)造財(cái)富和出售方面無與倫比,
雖然模型在短期、體現(xiàn)出更強(qiáng)的「規(guī)劃」和「履行」才干
。簡略「忘掉」最初的信息。就像上面xAI辦公室職工運(yùn)用的那樣
。
或許Grok 5還真的有點(diǎn)東西!

論文地址:https://arxiv.org/pdf/2502.15840
Vending Bench自身是一個(gè)模仿環(huán)境,例如誤解送貨時(shí)刻表
、某些情況下乃至超過了咱們的人類基準(zhǔn)體現(xiàn),回歸到基準(zhǔn)測驗(yàn),老馬歷來不是一個(gè)「嘴炮」選手,銷量高出約2倍,

怎么讓AI從Chat談天框里真實(shí)走入實(shí)踐國際
?又怎么評(píng)價(jià)AI的才干 ?
Vending-Bench給出一種「風(fēng)趣」的解法。能看到餅干和薯片等。
不同模型的體現(xiàn)差異很大 。
Andon Labs為此還專門寫了一篇論文。馬斯克乃至有點(diǎn)「奧特曼化」了
,在Slack上與我談天」。在這場共同的比賽中