整理AI性能指標


整理AI性能指標

Sorting out AI performance metrics

推理性能的最佳衡量標准是什么?             

在人工智能加速器的世界里,對於給定的算法,芯片的性能經常以每秒萬億次的運算量(TOPS)來表示。但有許多原因說明,這可能不是最好的數據。             

“客戶真正想要的是每美元的高吞吐量,”人工智能加速器公司FlexLogix的首席執行官GeoffTate說。             

Tate解釋說,擁有更多的tops並不一定與更高的吞吐量相關。在batch size批量大小為1的邊緣應用程序中尤其如此。數據中心之類的應用程序可以通過使用較大的批處理並行處理多個輸入來提高其吞吐量(因為有備用的頂部),但這通常不適合邊緣設備。             

例如,Tate將Flex Logix’ InferX X1設備與市場領先的GPU設備進行了比較。雖然GPU提供了3到4倍的吞吐量,最高10倍,但使用的dram數量是8倍。Tate認為這使得flexlogix的架構更具資源效率。             

Tate提出的每美元吞吐量指標聽起來很合理,但實際上,要找到可靠的產品成本信息來進行直接比較並不容易。諸如需要多少DRAM,或者某個芯片有多少硅面積等因素可以作為成本的指標,可惜不是精確的。

Flex Logix的InfereX X1設備將於2019年年底前投產。將提供大約8.5個top。            

ResNet-50公司             

TOPS作為度量標准的另一個問題是,通常在運行ResNet-50時進行度量。             

Tate說:“ResNet-50不是客戶關心的基准,但是人報告最多的一個。“不太相關的原因是使用了非常小的圖像。”             

如今,ResNet-50在很大程度上被視為過時,已經存在了一段時間,已經成為引用頂級數據的事實標准。有充分的理由繼續使用作為一個標准;其中包括努力保持所有分數至少在一定程度上具有可比性,以及使這一事實上的標准對所有類型的設備(即使是很小的設備)都可用。然而,不足以真正挑戰當今為數據中心推理而構建的巨大芯片,也不足以炫耀能力。

行業基准             

除了事實上的標准,當然還有各種各樣的組織在為人工智能加速器開發基准(參見:MLPerf、DawnBench、EEMBC等)。             

雖然MLPerf已經發布了推斷結果,但Tate認為這個基准過於面向數據中心。在這個場景中,認為在第90個時間段,一個設備的延遲是一個性能指標。             

“在邊緣,我認為顧客不想知道第90個百分位,想知道第100個百分位。想知道:能保證我什么?Tate說,將自動駕駛作為一種邊緣應用,在這種應用中延遲非常關鍵。

在更復雜的圖像處理任務(如目標檢測)上的性能更適合於比較當今高端的人工智能加速器             

當信息在多個處理器內核和內存之間傳輸時,長尾延遲對於那些遭受總線爭用的系統來說是一個典型的問題。雖然現在的許多設備使用高帶寬內存接口,但在可能發生爭用的情況下,理論上仍然存在延遲。              

flexlogix基於FPGA的推理處理器設計每次都有完全相同的延遲(Groq也聲稱這一點,盡管堅稱自己的設備不是FPGA)。            

 “由於我使用的是我的共同創始人在核心發明的FPGA互連,因此從內存到乘法累加器,到激活邏輯,再到內存,都有一條完全專用的路徑。所以沒有爭議:事情就是這樣。Tate說:“我的利用率不是百分之百,但我的利用率比其所有體系結構都要高得多。”。

市場             

對於這一領域芯片初創公司數量的激增,泰特對FlexLogix的前景持樂觀態度。             

“當芯片投入使用,軟件運行,展示演示,當看到價格和力量……很快,那些不在上四分之一的公司就會消失。”。             

泰特的預測是,根據不同的細分市場(訓練、推理、數據中心、edge、超低功耗等),這一領域可以支持10或15種芯片產品。今天提供的產品在計算能力方面跨越了多個數量級,因此並不都是直接相互競爭的。             

泰特提到沃倫•巴菲特的名言:“在未來的一兩年里,將有一場大規模的牛群淘汰,當潮水退去時,可以看到誰在裸泳。”


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM