物聯(lián)傳媒 旗下網(wǎng)站
登錄 注冊

AI芯片領(lǐng)域的角逐才剛剛開(kāi)始

作者:科技行者
日期:2019-04-24 10:13:58
摘要:新型架構能夠挖掘深度學(xué)習的巨大潛力。然而,到目前為止,只有一款AI芯片是完全符合描述和基準測試的,它就是谷歌的TPU。即便如此,這一領(lǐng)域仍然正在蓬勃發(fā)展,相關(guān)的技術(shù)也開(kāi)始逐漸明朗。

芯片,AI芯片,TPU,GPU,FPGA

新型架構能夠挖掘深度學(xué)習的巨大潛力。然而,到目前為止,只有一款AI芯片是完全符合描述和基準測試的,它就是谷歌的TPU。即便如此,這一領(lǐng)域仍然正在蓬勃發(fā)展,相關(guān)的技術(shù)也開(kāi)始逐漸明朗,比如模擬計算、新興內存和封裝技術(shù)、以及一系列專(zhuān)門(mén)用于處理神經(jīng)網(wǎng)絡(luò )的技術(shù)等等。

對此,比利時(shí)魯汶大學(xué)Marian Verhelst教授表示:“這個(gè)領(lǐng)域涉及范圍很廣,包括每個(gè)層面的研究?!盫erhelst教授專(zhuān)門(mén)研究探索二元精密格式的芯片。她說(shuō),模擬計算很有用,特別是3到8位格式的模擬計算。

NVIDIA首席科學(xué)家、資深處理器研究員Bill Dally表示:“NVIDIA有多個(gè)和深度學(xué)習模擬計算相關(guān)的研究項目,但是到目前為止,還沒(méi)有一個(gè)項目可以轉化為產(chǎn)品?!彼a充說(shuō),有一些項目是需要數學(xué)神經(jīng)網(wǎng)絡(luò )的,生成的結果并不適合用于進(jìn)行模擬。

“過(guò)去那些被否定了的CPU新想法都被重新拿出來(lái)進(jìn)行探索,例如模擬計算、內存處理器、晶圓級集成,”資深計算機研究員David Patterson這樣表示,他現在在谷歌工作?!拔移炔患按叵肟纯催@些激進(jìn)的想法是否奏效?!?/p>

“兩三年前,每個(gè)優(yōu)秀的計算機架構師都會(huì )說(shuō)——'我可以做到100倍速’。正因如此,我們看到大量解決方案已經(jīng)出現,并且提供了各種功能上的改進(jìn),不斷逼近當前技術(shù)的極限?!?Chris Rowen表示,他曾經(jīng)是MIPS和Tensilica公司的聯(lián)合創(chuàng )始人,現在又創(chuàng )建了一家人工智能軟件公司BabbleLabs。

hangye-1.jpeg

AI基準測試遭遇初創(chuàng )公司冷落

處理器設計的復興給人們帶來(lái)的一大挫折就是漫長(cháng)的等待。

去年5月,百度和谷歌公布了MLPerf基準,以一種公平的方式來(lái)衡量“幾十家”初創(chuàng )公司開(kāi)發(fā)的芯片。該項目負責人Patterson表示:“結果有點(diǎn)令人失望,沒(méi)有一家初創(chuàng )公司提交第一個(gè)迭代的結果?!?/p>

“也許他們有戰略方面的考慮。但又不禁讓人懷疑,他們是不是在開(kāi)發(fā)芯片的過(guò)程中遇到了問(wèn)題,還是芯片性能沒(méi)有達到他們的預期,又或者是他們的軟件不夠成熟,無(wú)法很好地運行這些基準測試?”

這個(gè)訓練基準測試采用了ResNet-50,第一個(gè)測試結果顯示,谷歌TPUv3在從8個(gè)芯片擴展到256個(gè)芯片的過(guò)程中,性能擴展幾乎可以達到100%,相比之下,NVIDIA Volta在從8個(gè)芯片擴展到640個(gè)芯片的過(guò)程中,性能擴展了大約27%。

Patterson解釋說(shuō),TPU之所以占據優(yōu)勢,是因為它可以作為多處理器在自己的網(wǎng)絡(luò )上運行。相比之下,NVIDIA Volta則是運行在x86集群上的。

Patterson希望未來(lái)MLPerf之于A(yíng)I加速器就像Spec之于CPU。第二批訓練結果預計將在今年晚些時(shí)候公布。針對數據中心和邊緣推理工作的MLPerf基準測試也將在今年首次亮相。

與此同時(shí),也有研究人員警告稱(chēng),AI芯片行業(yè)過(guò)于關(guān)注峰值性能?!拔覀冋J為峰值性能沒(méi)有什么用,因為峰值性能沒(méi)有考慮到效率上的差異,”帝國理工學(xué)院Erwei Wang博士這樣表示,最近他和同事共同撰寫(xiě)了一份關(guān)于人工智能加速器的研究報告。他指出,“人們應該公布的是標準數據集和基準測試的持續性能結果,以便更好地對比不同的架構?!毕聢D為MLPerf在12月發(fā)布的初步結果采樣。

hangye-2.jpeg

分析師:格局尚不明朗

有分析師抱怨說(shuō),包括Graphcore和Wave Computing等在內的知名初創(chuàng )公司到目前為止都沒(méi)能提供性能數據。唯一的例外是Habana Labs。

The Linley Group分析師Linley Gwennap表示,該初創(chuàng )公司“似乎有一些真實(shí)的數據,在白皮書(shū)中詳細說(shuō)明其性能是NVIDIA GPU的3到5倍......但他們最初關(guān)注的是推理任務(wù),而非訓練?!?/p>

對此,Moor Insights&Strategy分析師Karl Freund也指出,目前來(lái)自初創(chuàng )公司的性能數據確實(shí)“少得可憐”。

其中,Habana只是在采樣階段,Wave宣稱(chēng)已有客戶(hù)采用,Graphcore表示會(huì )在4月之前出貨芯片產(chǎn)品,Groq可能會(huì )在4月北京舉行的一個(gè)活動(dòng)上第一次亮相,其他初創(chuàng )公司則可能會(huì )于9月在舊金山舉行的一次活動(dòng)上發(fā)布產(chǎn)品。

有幾家中國初創(chuàng )公司——例如Cambricon和Horizon Robotics,讓我們看到了一些希望,這些公司先于美國的同類(lèi)企業(yè)進(jìn)入市場(chǎng),專(zhuān)注于人工智能推理領(lǐng)域。

Freund表示:“由于目前在推理領(lǐng)域還沒(méi)有巨頭出現,所以會(huì )掀起一股淘金熱,但我不知道是否有初創(chuàng )公司能夠在訓練領(lǐng)域向NVIDIA GPU發(fā)起挑戰,因為只是在一個(gè)產(chǎn)品周期內你無(wú)法扭轉競爭形勢,企業(yè)需要可持續的領(lǐng)先地位。

他說(shuō):“唯一一個(gè)真正在訓練領(lǐng)域站穩腳跟的是英特爾,英特爾已經(jīng)推出了Nervana芯片,他們正在等待合適的時(shí)機,因為如果只是有一堆MAC和降低了的精度,立刻會(huì )被NVIDIA秒殺。他們需要解決內存帶寬和擴展問(wèn)題?!?/p>

在這場(chǎng)競賽中,英特爾可以說(shuō)是多管齊下。英特爾的一位AI軟件經(jīng)理表示,與他工作關(guān)系最緊密的,就是至強處理器和前蘋(píng)果及AMD GPU大師Raja Koduri設計的新GPU。

英特爾最新的Cascade Lake至強處理器中增添了很多新功能,用以加速人工智能。我們預計,英特爾將不再需要GPU或加速器,但也不會(huì )放棄與GPU和加速器在性能或效率方面的競爭。

而對于NVIDIA來(lái)說(shuō),他們正在將最新的12納米處理器封裝到各種工作站、服務(wù)器和機架系統中。有人說(shuō),NVIDIA在A(yíng)I訓練方面遙遙領(lǐng)先,甚至可以把7納米產(chǎn)品保留到2020年之后再推出。

除了,NVIDIA之外,許多大廠(chǎng)商也都在基于專(zhuān)有的互連技術(shù)、封裝技術(shù)、編程工具和其他技術(shù)構建競爭生態(tài)系統。其中,英特爾涉及的技術(shù)領(lǐng)域最廣泛,包括專(zhuān)有的處理器互連、針對Optane DIMM的內存協(xié)議、網(wǎng)絡(luò )框架、以及新興的EMIB和Foveros芯片封裝。

AMD、Arm、IBM和Xilinx則圍繞CCIX(用于極速器的一種緩存一致性互連技術(shù))和GenZ(一種內存鏈接技術(shù))進(jìn)行聯(lián)手。最近,英特爾還發(fā)布了一種針對加速器和內存的更開(kāi)放的處理器互連技術(shù)——CXL,但到目前為止,CXL仍然缺少對CCIX和GenZ的第三方支持。下圖為AI芯片初創(chuàng )公司列表。

hangye-3.jpeg

數據中心試水DIY芯片

當初創(chuàng )公司爭相在服務(wù)器系統中為自己的芯片占據一席之地的時(shí)候,一些企業(yè)卻在部署他們自己研發(fā)的加速器。

比如:谷歌已經(jīng)在使用第三代TPU,該版本采用了液體冷卻技術(shù),運行平穩;百度去年也宣布推出了自己的首款芯片;亞馬遜表示將在今年晚些時(shí)候推出首款芯片;Facebook正在組建一支半導體團隊;阿里巴巴則在去年收購了一家處理器專(zhuān)業(yè)公司。

大多數廠(chǎng)商對其芯片的架構和性能都非??量?。百度表示,將發(fā)布針對訓練和推理任務(wù)的不同版本14納米“昆侖”芯片,可以提供260 TOPS性能,功耗為100 W,其中封裝了數千個(gè)核心,總內存帶寬為512 GB/s。亞馬遜方面表示,Inferentia將實(shí)現數百TOPS的推理吞吐量,多個(gè)芯片聚合在一起可以實(shí)現數千TOPS性能。

“很多初創(chuàng )公司都是以面向超大規模數據中心售賣(mài)芯片為目標開(kāi)展業(yè)務(wù)的,而現在,這可能行不通了,”二級公有云服務(wù)商Packet公司首席執行官Zac Smith這樣表示。

我們可能永遠也看不到云計算巨頭設計芯片的拆解細節,但是有一些公開(kāi)信息描述了很多嵌入塊的情況。Linley Group分析師Mike Demler表示,這些嵌入塊展現了從改進(jìn)后的DSP和GPU模塊,到使用乘法累加數組,再到數據流體系結構的演變,這種架構將生成的信息從神經(jīng)網(wǎng)絡(luò )的一個(gè)層面傳遞到另一個(gè)層面。

和三星最新公布的Samsung Exynos中的AI模塊一樣,很多芯片都轉向重度使用網(wǎng)絡(luò )修剪和量化技術(shù),運行8位和16位操作以?xún)?yōu)化效率和網(wǎng)絡(luò )稀疏性。

對網(wǎng)絡(luò )進(jìn)行修剪將變得越來(lái)越重要。卷積神經(jīng)網(wǎng)絡(luò )(CNN)之父Yann LeCun表示,神經(jīng)網(wǎng)絡(luò )模型只會(huì )越變越大,這就要求性能越來(lái)越高。不過(guò)他指出,神經(jīng)網(wǎng)絡(luò )模型可以被極大程度上進(jìn)行修剪,特別是考慮到人類(lèi)大腦最大限度上只被激活了2%。

他在最近一篇針對芯片設計人員的論文中,呼吁開(kāi)發(fā)能夠處理極其稀疏網(wǎng)絡(luò )的芯片?!霸诖蠖鄶登闆r下,芯片單元都是處于關(guān)閉狀態(tài)的,事件驅動(dòng)型的硬件具有一定的優(yōu)勢,如此一來(lái),只有激活的單元才會(huì )消耗資源?!彼@樣寫(xiě)道。

“遞歸神經(jīng)網(wǎng)絡(luò )是最稀疏的,因此,使用細粒度修剪也是最有效的。有50%-90%的修剪都是針對CNN的,但是芯片設計人員要面對支持細粒度修剪不規則性和靈活性方面的挑戰?!钡蹏砉W(xué)院研究員Erwei Wang這樣表示。

減少權重數量和降低精度有助于減少內存需求。Wang說(shuō),英特爾的至強芯片和其他很多芯片已經(jīng)在使用8位整數數據執行推理任務(wù),而FPGA和嵌入式芯片正在向4位甚至二進(jìn)制精度發(fā)展。

這么做是為了讓處理操作盡可能靠近內存所在位置,避免片外訪(fǎng)問(wèn)。理想情況下,這意味著(zhù)能夠在寄存器內部或者至少是在緩存內部進(jìn)行計算。

LeCun甚至在他的論文中設想了一種將內存和處理單元結合起來(lái)的可編程寄存器。

“為了讓深度學(xué)習系統具備推理能力,深度學(xué)習系統需要一種短期內存作為情景內存......這樣的內存會(huì )變得非常普及,而且非常龐大,亟需硬件方面的支持?!彼@樣寫(xiě)道。下圖為根據研究員Erwei Wang及其同事最近對可編程架構的研究調查現實(shí),性能差異是很大的。


hangye-4.jpeg

MAC單元之外所需的靈活性

如果必須遠離芯片,那就把大量請求批量處理成幾個(gè)較大的請求,這已經(jīng)是一種很流行的技術(shù)。Patterson注意到谷歌最近發(fā)表了一篇論文,對于批量操作最理想大小的討論帶來(lái)了一些啟發(fā)。

Patterson表示:“如果你小心操作的話(huà),會(huì )在某個(gè)區域內得到最理想的加速,然后當你增加批量處理規模的時(shí)候,就會(huì )發(fā)現收益出現遞減,然后在很多模型中都表現平平?!?/p>

LeCun在論文中警告說(shuō):“我們需要新的硬件架構,這些架構在批量處理大小為1的時(shí)候可以高效運行。這意味著(zhù)我們完全不需要依賴(lài)于矩陣產(chǎn)品作為最低層級的操作工具?!边@一理論無(wú)疑是對目前芯片核心的多架構單元的某種終結。

鑒于現在還是深度學(xué)習的早期發(fā)展階段,最重要的指導方針是保持靈活性,以及在可編程性和性能之間尋求平衡。

“我們吸取到的教訓是,神經(jīng)網(wǎng)絡(luò )是持續演化的,你無(wú)法對神經(jīng)網(wǎng)絡(luò )的維度做出假設,但又希望在各個(gè)方面都能保持高效?!必撠熼_(kāi)發(fā)Eyeriss芯片的Vivienne Sze這樣表示。

Wang說(shuō),在深度學(xué)習發(fā)展演化的過(guò)程中,FPGA將發(fā)揮重要的作用,這就要求硬件具備靈活性。他看好Xilinx的Versal ACAP,這是一種FPGA與硬件的混合體。

Wang提出的LUTNet研究探索了如何在無(wú)需維護索引的前提下定制查找表,以作為處理細粒度修剪的推理核心。他表示,這將讓推理任務(wù)所需的芯片減少一半。

這可以說(shuō)是一個(gè)新穎的想法,很多企業(yè)已經(jīng)在這方面進(jìn)行實(shí)踐。例如,東芝最近推出了一種ADAS加速器,其94.5平方毫米的芯片中封裝了4個(gè)Cortex-A53核心,2個(gè)Cortex-R4、4個(gè)DSP、8個(gè)專(zhuān)用加速器模塊。

總的來(lái)說(shuō),對于A(yíng)I芯片領(lǐng)域,我們還有非常大的想象空間,可以說(shuō),好戲才剛剛開(kāi)始。

人物訪(fǎng)談