進(jìn)步對立場景下的感知魯棒性。
論文:https://arxiv.org/abs/2507.18484
代碼:https://github.com/thu-ml/EmbodiedActiveDefense
本文來自微信大眾號“量子位”
,論文提出OAPA技能,
該結(jié)構(gòu)讓智能體也能學(xué)會“看第二眼”
,人類視覺體系更為靈敏
,
場景 下的交互進(jìn)程用 標(biāo)明。然后有戰(zhàn)略地引導(dǎo)視覺體系履行方針驅(qū)動的自動感知使命。并經(jīng)過強(qiáng)化學(xué)習(xí)范式消除了對可微環(huán)境建模的依靠,也能自動出擊!使體系能夠自動辨認(rèn)潛在高風(fēng)險區(qū)域并動態(tài)調(diào)整行為戰(zhàn)略,使體系具有了與環(huán)境自動交互、
其杰出的泛化才能和對雜亂實(shí)際國際場景的適應(yīng)性,
OAPA大幅下降了練習(xí)本錢,但在隨后的過程REIN-EAD進(jìn)行了正確的自我批改(圖4) 。經(jīng)過約束戰(zhàn)略的巨細(xì)來完成安穩(wěn)的戰(zhàn)略更新
。因而大大進(jìn)步了練習(xí)功率,平衡了即時猜測精度和長時刻熵最小化。并依據(jù)環(huán)境反應(yīng)不斷批改其內(nèi)部標(biāo)明
,以對累計探究的REIN-EAD與ICLR 2024 工作中貪婪探究的EAD進(jìn)行公正比較
。4)
。
在人類視覺體系啟發(fā)下,圖5)。遇上不知道或自適應(yīng)進(jìn)犯時作用敏捷衰減。以全面的驗證REIN-EAD面臨不知道進(jìn)犯對手的泛化才能 。REIN-EAD明顯增強(qiáng)了魯棒性和泛化性
,
它積累了多步相互作用的時刻一致性