名器尤物挨cao日常h-www.国产视频-一级黄毛片-黄大色黄大片女爽一次-欧美在线视频免费观看-九色精品-freexxxxhd高潮-嗯~用力啊~嗯~c我~白洁-老师的肉丝玉足夹茎,99riav久久精品riav,大肥胖大肥胖bbwbbwd,国产成人精

欧美亚洲sv在线-6488avav

今日這篇文章,咱們來聊一個最近幾年很火的概念——存算一體。

為什么會提出“存算一體”?

存算一體,英文叫Compute In Memory,簡稱CIM。望文生義,便是將存儲和核算放在一同。

咱們都知道,存儲和核算,是咱們處理數據的兩種根本方法。自從核算機誕生以來,咱們選用的干流核算架構,是聞名的馮·諾伊曼架構。在這個架構中,存儲和核算是兩個相對獨立的模塊。存儲擔任數據的存取,而核算則擔任運算。

馮·諾依曼架構

咱們可以把存儲理解為配菜,核算理解為炒菜。兩者合作到位,才干完結菜品的制作(完結核算使命)。

理論上來說,想要出菜的速度更快,一方面,要加快炒菜的速度(經過進步芯片的算力,例如選用更先進的工藝制程),另一方面,也要加快配菜的速度。

這個速度,簡略來說,便是存儲設備與核算芯片(CPU、GPU等)之間的數據傳輸才能。假如配菜太慢,炒菜師傅就要等候,然后影響全體功率。

從前小棗君給咱們介紹存儲的時分從前說過,核算機的存儲,是典型的分級戰略——越接近處理器(核算單元)的存儲設備,速度越快,容量越小。有緩存(1級/2級/3級)、內存、磁盤(固態/機械)、外部存儲器(本地磁陣、云存儲)這樣的不同類型存儲設備(單元)。

這是由存儲設備的本錢決議的。速度越快的存儲設備,本錢越高。悉數都用最快的存儲,是不現實的,價格太昂揚,所以才有了逐級存儲機制。

馮·諾依曼架構,咱們用了幾十年,因為數據存儲和核算是顯著分隔的,所以也叫做存算別離

進入互聯網年代后,因為數據量呈現爆破式添加,對數據核算功率的要求越來越高。這種傳統的架構開端暴露出才能上的缺點。

尤其是最近這些年,AI的興起,讓數據核算強度又躍升了好幾個層級。核算芯片在張狂提速,而存儲傳輸速率的進步跟不上,由此產生了聞名的兩堵墻——“存儲墻”“功耗墻”

所謂“存儲墻”,是指存儲設備和處理器之間的數據傳輸速度,遠遠跟不上處理器的核算速度。就像炒菜師傅手工再好,配菜師傅跟不上節奏,也只能干著急。

業界曾提出,AI運算需求的存算通道速率是1PB/s。SRAM的10-100TB/s、DRAM的40GB-1TB/s,都遠達不到要求。

而“功耗墻”則是指,在數據傳輸過程中,能耗巨大,導致全體體系的能效比不抱負。這就像是為了快速配菜,不得不請許多輔佐,成果人工本錢大大添加。

例如,在7nm工藝下,數據轉移的功耗占比乃至到達了驚人的63.7%,遠遠大于數據核算的功耗。

咱們應該都聽說過HBM技能

HBM(High Bandwidth Memory,高帶寬內存),便是一種測驗處理“存儲墻”和“功耗墻”問題的新式存儲技能。像英偉達這樣的芯片廠商,選用3D封裝等先進工藝,將存儲單元和核算單元封裝在一同,經過縮短兩者之間的間隔,進步數據傳輸速度,一起下降能耗。

HBM在必定程度上緩解了問題,但并沒有從根本上改動存算別離的現狀。所以,業界提出了一個新的處理思路,那便是——存算一體

已然存儲和核算別離會導致帶寬瓶頸,那么,把存儲和核算直接結合在一同,讓數據在存儲的過程中就能進行核算,或許在核算的過程中就能直接拜訪存儲,然后削減數據的轉移次數,不就行了嗎?

這樣一來,既可以進步全體核算功率,也可以下降功耗,徹底處理“兩堵墻”的問題。

實踐上,咱們的大腦,便是典型的存算一體結構。神經元既擔任存儲信息(回憶),也擔任處理信息(考慮)。這種結構,使得大腦可以以極高的功率處理雜亂的使命,并且能耗極低。

存算一體的開展進程

存算一體的研討,其實很早就現已開端了。

早在1969年,斯坦福研討所的Kautz等人,首要提出了存算一體核算機的概念。可是,受限于其時的技能和工藝,概念只是停留在理論研討階段,并未得到實踐運用。

后來,為了完結存算一體,科學家們進行了許多的研討和測驗,但仍然開展緩慢。

進入21世紀后,芯片與半導體技能日趨老練,存算一體化完結的曙光亦逐漸閃現。科學家們發現,某些特別的資料或器材,可以在存儲數據的一起,在存儲單元歐美亞洲sv在線內部履行簡略的邏輯運算。這將大大削減數據的轉移次數和功耗。

2010年,惠普實驗室的Williams教授團隊提出并驗證運用憶阻器完結簡略布爾邏輯功用(聯合、相交、相減等)。

2016年,美國加州大學圣塔芭芭拉分校(UCSB)的謝源教授團隊,提出運用阻變存儲器(RRAM)構建存算一體架構的深度學習神經網絡(PRIME)。相較于傳統馮·諾伊曼架構計劃,PRIME可以完結功耗下降約20倍、速度進步約50倍。

2017年,在微處理器尖端年會(Micro 2017)上,包括英偉達、英特爾、微軟、三星、蘇黎世聯邦理工學院與加州大學圣塔芭芭拉分校等都推出了他們的存算一體體系原型,掀起了學術界和工業界的一股“存算一體”熱潮。

最近這幾年,跟著AI浪潮的到來,海量的大模型練習和推理核算需求迸發,引發了算力工業的新一輪添加。存算一體,更是進入了一個高速開展的快車道。

除了傳統芯片巨子在趕緊研討之外,也有許多創業企業“扎堆”進場。國內有蘋芯科技、后摩智能、知存科技、億鑄科技、智芯科、千芯科技、九霄睿芯等。國外有Mythic、Syntiant等公司。

2023年9月,清華大學團隊宣告研宣布全球首顆全體系集成的、支撐高效片上學習的憶阻器存算一體芯片,再次將“存算一體”推上熱搜。

現在,存算一體現已成為業界最搶手的研討方向,正在加快從理論研討走向工業落地。

存算一體的技能道路

接下來,咱們看看存算一體的詳細技能分類。

現在,業界依據存儲和核算的間隔遠近,將存算一體分為三類,分別是近存核算、存內處理和存內核算。

●近存核算(Processing Near Memory,PNM)

近存核算,經過芯片封裝和板卡拼裝等方法,將存儲單元和核算單元集成,添加訪存帶寬、削減數據搬移,進步全體核算功率。

前面說到的HBM共封裝,便是近存核算。

近存核算又分為存儲上移和核算下移。HBM那個,歸于存儲上移。核算下移是選用板卡集成技能,將數據處理才能卸載到存儲器,典型計劃是CSD可核算存儲。

近存核算嚴格來說仍然是歸于存算別離架構。這個道路比較簡單完結,現在現已廣泛運用于AI、大數據、邊際核算、物聯網等場景。

● 存內處理(Processing In Memory,PlM)

存內處理,是在芯片制作的過程中,將“存”與“算”集成在同一個晶粒(Die)中,使存儲器自身具有了必定的算力。

存內處理本質上仍是存算別離。比較于近存核算,“存”與“算”間隔更近。

現在,業界的存內處理計劃大多在內存(DRAM)芯片中加“算力”,比較典型的產品形狀為HBM-PIM(三星)和PIM-DIMM。這類計劃合適運用于語音辨認、數據庫索引查找、基因匹配等場景。

● 存內核算(Computing in Memory,ClM)

存內核算,這是真實的存算一體了(也歸于業界所說的狹義的存算一體)。

在芯片規劃的過程中,不再差異存儲單元和核算單元,直接消除“存”“算”邊界,真實完結存算徹底交融。

這個計劃的首要服務場景便是AI核算。

AI深度學習算法中包括了許多的矩陣乘法運算,其本質是乘累加(Multiply Accumulate, MAC)運算。

存算一體技能可以將這些運算直接映射到存儲結構中,在存儲單元的中心電路上做修正,然后在讀取的一起進行數據輸入和核算處理,在存儲陣列中完結卷積運算。這帶來了極高的能效比和極低的推遲。

存算一體芯片的大致架構

存算一體的存儲介質

從前小棗君給咱們介紹半導體存儲的時分說過,存儲器分為易失性存儲器和非易失性存儲器。

存內核算的電路,也可以依據這兩種存儲器。

易失性,便是內存那種,掉電了數據就沒了,例如SRAM、DRAM。

非易失性,掉電時數據不會丟掉,如傳統的閃存NOR Flash和NAND Flash,以及一些新式存儲器:阻變存儲器RRAM(ReRAM)、磁性存儲器MRAM、鐵變存儲器FRAM(FeRAM)、相變存儲器PCRAM(PCM)等。

SRAM、DRAM、Flash等都是老練的技能,依據電荷的移動完結數據存儲。

DRAM本錢低,容量大,可是可用的eDRAM IP核工藝節點不先進,讀取推遲(Latency)也大,且需求定時改寫數據。Flash則歸于非易失性存儲器材,具有低本錢優勢,一般合適小算力場景。SRAM在速度方面具有極大優勢,有簡直最高的能效比,容量密度略小,在精度增強后可以確保較高精度,一般適用于云核算等大算力場景。

現在,針對新式存儲器的研討十分搶手。例如RRAM、MRAM等,依據電阻巨細的改變完結數據存儲功用。

新式存儲器中,憶阻器(RRAM)歐美亞洲sv在線的研討熱度最高。

RRAM運用電阻調制來完結數據存儲,讀出電流信號而非傳統的電荷信號,可以獲得較好的線性電阻特性。但現在RRAM工藝良率爬坡還在進行中,并且仍然需求面對非易失存儲器固有的牢靠性問題。

需求闡明的是,存內核算首要包括模仿和數字兩種完結方法。

模仿存內核算能效高,但差錯較大,完結低功耗低位寬的整數乘加核算,適用于低精度、低功耗核算場景,例如端側可穿戴設備等。模仿存內核算一般運用FLASH、RRAM、PRAM等非易失性介質作為存儲器材,存儲密度大,并行度高,可是對環境噪聲和溫度十分靈敏。

數字存內核算差錯低,但單位面積功耗較大,適用于高精度、功耗不靈敏的核算場景,例如云端AI場景。數字存算一體首要以SRAM和RRAM作為存儲器材,具有高性能、高精度的優勢,且具有很好的抗噪聲才能和牢靠性,

存算一體的運用場景

前面現已說過,存算一體天然合適AI相關的核算場景。

自然語言處理、信息檢索、圖神經網絡、智能決議計劃、具身智能等人工智能運用,對算力功率以及體系能耗有極高的要求。傳統的“存算別離”難以應對,存算一體則十分合適。

除了AI之外,便是AIoT智能物聯網產品。碎片化的AIoT商場對先進工藝芯片的需求并不激烈,反而更重視芯片的本錢、功耗、開發難度。

存算一體芯片在這些方面都有優勢,十分合適選用。

在一些大算力場景,例如云端AI核算,也是存算一體的用武之地。

現在的AI核算,根本上都是GPU為主。GPU在算力和能效上都無法一起與專用加快芯片(ASIC)競賽。在云核算算力商場,GPU的單一架構也現已不能適應不同AI核算場景的算法離散化特色。例如在圖畫、引薦、NLP范疇,都有各自的干流算法架構。

新式的存算一體芯片,具有能效優勢,也合適固定場景的核算使命,運用潛力巨大。

此外,存算一體芯片還有一些其他延伸運用,比方感存算一體、類腦核算等。這些也是十分具有潛力的商場范疇。

存算一體面對的應戰

存算一體的技能遠景十分寬廣,可是咱們也有必要認識到,這項技能的完結和遍及還面對著許多應戰。

首要,是來自技能上的應戰。

存算一體選用新式存儲技能,對半導體工藝有更高的要求。在芯片架構、電路規劃和資料挑選等方面,都仍有待進一步研討和立異。

其次,是來自生態上的應戰。

存算一體技能作為一個新式范疇,其生態體系沒有徹底樹立。

例如,在芯片規劃階段,因為存算一體芯片差異于慣例的芯片規劃計劃,所以現在市面上沒有老練的專用EDA東西輔助規劃和仿真驗證。芯片流片之后,也沒有老練的東西幫忙測驗。在芯片落地運用階段,沒有專用的軟件與之匹配。

為此,需求工業界協作,進一步進步規劃東西鏈的老練度,完結自動化EDA東西與跨渠道編譯器的支撐,加強代工廠規范IP庫的建造與優化多場景下的制作本錢,以便進步工業鏈的全體協同才能。

最終,是來自商場上的應戰。

盡管存算一體技能具有寬廣的商場遠景,但現在商場上仍存在許多不確定要素。存算一體芯片的架構場景通用性及規劃擴展才能較差。傳統存算別離架構仍占有主導地位,存算一體技能需求與傳統架構進行競賽。

存內核算僅合適原本就對存儲需求較大的場景,而關于自身存儲需求并不高的場景,為了引進內存核算而加上一塊大內存反倒會添加本錢拔苗助長。

用戶對性價比十分重視,需求考慮用戶的需求和場景是否可以承受存算一體。存算一體,也要在AI的開展過程中尋覓自己的落地場景。

總歸,應戰仍是許多的。可是,跟著技能的不斷進步以及業界的不懈努力,信任這些問題都會得到逐漸處理。

最終的話

依據QYResearch調研團隊陳述《全球存算一體技能商場陳述2023-2029》顯現,估計2029年全球存算一體技能商場規劃將到達306.3億美元,未來幾年年復合添加率CAGR為154.7%。

這是一個十分具有潛力的商場。未來幾年,存算一體范疇還會有更多的技能立異呈現,涌現出更多優異的企業。讓咱們拭目而待!

參考文獻:

1、《存算一體:內核架構立異,打破算力能效極限》,勢乘本錢和光錐智能;

2、《存算一體白皮書(2022年)》,中國移動研討院;

3、《ChatGPT:存算一體,算力的下一極》,華西證券;

4、《消除馮·諾依曼核算架構瓶頸,存算一體未來幾許?》,松禾本錢。

本文來自微信大眾號 “鮮棗講堂”(ID:xzclasscom),作者:小棗君,36氪經授權發布。