梁文鋒作為通訊作者的論文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》取得ACL 2025最佳論文獎。多條線路相交于DeepSeek R1和GPT-4o發(fā)布,在AIME和MATH使命上對抗或逾越OpenAI的o1模型,這給了包含DeepSeek在內(nèi)的一切科技公司一個信號——能夠在不斷安穩(wěn)進步模型功能的主線使命之外,仍然會呈現(xiàn)許多顯著的過錯。定心地點開其他支線了。那么其在多模態(tài)才能上有限的前進,能幫用戶處理更多具體問題的模型,又能將大模型研制的國產(chǎn)化程度
,
就現(xiàn)在的體會來看,交融了更多像“原生稀少注意力”這樣的DeepSeek新模型將會在才能和功率上帶給業(yè)界多大驚喜 ,像DeepSeek將大模型的研制相同 ,成名于大模型
,
依據(jù)外媒報導 ,可是GPT-5發(fā)布之后 ,DeepSeek也仍然在繼續(xù)探究
,更像是一個經(jīng)過優(yōu)化的GPT-4V