CUDA 矩陣乘法終極優化指南
作者:馬駿 | 曠視 MegEngine 架構師 前言 單精度矩陣乘法(SGEMM)幾乎是每一位學習 CUDA 的同學繞不開的案例,這個經典的計算密集型案例可以很好地展示 GPU 編程中 ...
作者:馬駿 | 曠視 MegEngine 架構師 前言 單精度矩陣乘法(SGEMM)幾乎是每一位學習 CUDA 的同學繞不開的案例,這個經典的計算密集型案例可以很好地展示 GPU 編程中 ...
作者:章曉 | 曠視 MegEngine 架構師 一、前言 2020 年 5 月 Nvidia 發布了新一代的 GPU 架構安培(Ampere)。其中和深度學習關系最密切的莫過於性能強勁的第三代的 ...
作者:褚超群 | 曠視科技 MegEngine 架構師 背景介紹 在算法研究的過程中,算法同學們可能經常會嘗試定義各種新的神經網絡層(neural network layer),比如 L ...
用戶實踐系列,將收錄 MegEngine 用戶在框架實踐過程中的心得體會文章,希望能夠幫助有同樣使用場景的小伙伴,更好地了解和使用 MegEngine ~ 作者:王雷 | 曠視科技 研發工 ...
作者:王博文 | 曠視 MegEngine 架構師 一、背景 對於深度學習框架來說,網絡的訓練/推理時間是用戶非常看中的。在實際生產條件下,用戶設計的 NN 網絡是千差萬別,即使是同一類數學計算, ...
作者:陳振寰 | 曠視科技 MegEngine 架構師 背景 近年來,自動混合精度(Auto Mixed-Precision,AMP)技術在各大深度學習訓練框架中作為一種使用簡單、代價低 ...
作者:洪超 | 曠視科技 MegEngine 架構師 前言 Cadence 的 Vision P6/Q6/Q7 系列 DSP 在很多的 ISP (“Image Signal Proces ...