花费 27 ms
CUDA 矩阵乘法终极优化指南

作者:马骏 | 旷视 MegEngine 架构师 前言 单精度矩阵乘法(SGEMM)几乎是每一位学习 CUDA 的同学绕不开的案例,这个经典的计算密集型案例可以很好地展示 GPU 编程中 ...

Wed Sep 15 22:47:00 CST 2021 1 376
Cadence DSP 算子开发上手指南

作者:洪超 | 旷视科技 MegEngine 架构师 前言 Cadence 的 Vision P6/Q6/Q7 系列 DSP 在很多的 ISP (“Image Signal Proces ...

Mon Nov 29 19:43:00 CST 2021 1 696

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM