“我肉眼看了許多 R1 輸出發(fā)現(xiàn)的(其實(shí)不是很大工作量,呈現(xiàn)“極速賽車”。參數(shù) top_k=1
,”還有達(dá)觀的網(wǎng)友說道
。其用 DeepSeek V3.1 做了一些測驗(yàn),然后跟從組成數(shù)據(jù)練習(xí)到了今年年頭的 DeepSeek-R1 模型中,
不過,觸發(fā)率千分之一。僅僅曾經(jīng)呈現(xiàn)的概率低
。”
經(jīng)許多網(wǎng)友實(shí)測,

為什么偏偏是“極”