作業區分優化:從頭規劃分塊戰略與線程分配,在右圖中
,將數據塊暫時存入高速緩存(SRAM),內存復雜度得到明顯下降 —— 從 O (N2) 降至 O (N)。像 Tri Dao 這樣的開發者是 CUDA 護城河的中心優勢之一,FlashAttention-2 面世,
而 FlashAttention 著重「IO-awareness」,

圖源:https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/
此刻