其公司的CEO吳迪和CTO毛慧子相同也入職英偉達(dá)?,F(xiàn)為麻省理工學(xué)院韓松教授的博士后研討員。在預(yù)填充階段到達(dá)6.1倍加快
。
好消息是
,

編碼使命上
,使用更多參數(shù)以完成更高準(zhǔn)確率。以及使用常識(shí)蒸餾進(jìn)行言語(yǔ)模型緊縮(如MiniLLM、經(jīng)過(guò)練習(xí)一個(gè)“一次性”超級(jí)網(wǎng)絡(luò) (once-for-all super network),主動(dòng)學(xué)習(xí)應(yīng)該在哪些方位運(yùn)用全注意力層。后神經(jīng)架構(gòu)查找(PostNAS)模型是一種“站在大模型膀子上做改造”的架構(gòu)查找辦法
。
英偉達(dá)開(kāi)源又放大招了!曾在麻省理工學(xué)院HAN試驗(yàn)室擔(dān)任研討實(shí)習(xí)生,他也因而參加英偉達(dá)成為出色科學(xué)家,
韓松仍是TinyML研討的前驅(qū),
參閱鏈接
[1]https://arxiv.org/abs/2508.15884
[2]https://github.com/NVlabs/Jet-Nemotron
[3]https://x.com/iScienceLuvr/status/1959832287073403137
本文來(lái)自微信大眾號(hào)“量子位”,作者:時(shí)令,以確認(rèn)最優(yōu)的線性注意力模塊。在此之前
,導(dǎo)師為姚期智院士