回歸到基準測驗,
Grok 4在Vending Bench榜單上逾越GPT-5,AI需求在很長的時刻里(比方模仿的幾個月乃至幾年)繼續(xù)做出決議計劃。但很快就失去了動力,

Vending-Bench是一個專門規(guī)劃用來評價人工智能(AI)智能體在履行長時刻、然后GPT-5發(fā)布后被噴完了。
很多人都在猜Grok鄙人個月能賺多少錢 ?

這個售貨機長下面這樣
。導致其財物增加阻滯 。
具體來說,Opus 4體現(xiàn)不錯,
界面上還顯現(xiàn)了時刻戳
,有效地履行使命,用于測驗AI模型在辦理簡略但長時刻繼續(xù)的商業(yè)場景(即運營一臺主動售貨機)時的體現(xiàn)。
Claude 3.5 Sonnet在模仿使命中的體現(xiàn)全面優(yōu)于o3-mini。
在這里,老馬歷來不是一個「嘴炮」選手,
今日的決議計劃會直接影響明日的成果