寒武紀芯片——有自己的SDK,支持tf、caffe、MXNet


寒武紀芯片

智能處理器IP

MLU智能芯片

軟件開發環境

Cambricon-1A

高性能硬件架構及軟件支持
兼容Caffe、Tensorflow、MXnet等主流AI開發平台,已多次成功流片

國際上首個成功商用的深度學習處理器IP產品,可廣泛應用於計算機視覺、語音識別、自然語言處理等智能處理關鍵領域。

Cambricon-1H8

低功耗版
面向視覺應用

針對視覺領域設計的深度學習處理器IP產品。與寒武紀1A相比,在同樣的處理能力下具有更低的功耗和面積,可廣泛應用於安防監控、智能駕駛、無人機等領域。

Cambricon-1H16

更高性能版
完備的通用性

1A的升級版本,能效比得到數倍提升,擁有更廣泛的通用性,可廣泛應用於計算機視覺、語音識別、自然語言處理等智能處理關鍵領域。

 

產品中心>軟件開發環境

智能處理器IP

MLU智能芯片

軟件開發環境

Cambricon NeuWare SDK ▼

CN-Lib高性能計算庫 CN-Gen模型重訓練和轉換工具 CN-CC通用編譯器 CN-Prof性能監控及調優工具 CN-GDB調試工具

支持主流編程框架 ▼

TensorFlow Caffe MXNet
難點:
作者:祖亞洲
鏈接:https://www.zhihu.com/question/41469046/answer/124179575

這個工作繼續下去有潛力把一整套系統做出來, chip tape-out, compiler/language support, multi-chip interconnect, 等等,但是繼續下去有很多 design consideration 需要討論:

1. Accelerator 和 CPU 的通信怎么做,像 nvidia 對他的GPU有一整套通信機制,只是沒有開源。這些CPU和accelerator的通信模型是很煩的,需要的支持團隊也不小。他怎么從 CPU instruct accelerator 去load數據,怎么保持數據一致性,這些design很費腦子,退一步說,這一整套 API 的實現可不簡單。

2. 這個編譯器,還有programming model怎么做,是准備在C/C++里面加特定的pragma/library,還是讓python自動compile某一部分代碼到這個ISA,然后下面的runtime自己manage CPU-accelerator 通信。

3. 現在工業界搞的NN都巨大無比,你單個加速器就算是power8那么大的,全是SIMD lanes也不夠。這個加速器怎么支持distributed計算,怎么和tensorflow/CNTK的framework融合。

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM