花费 33 ms
Tensorcore使用方法

用于深度学习的自动混合精度 深度神经网络训练传统上依赖IEEE单精度格式,但在混合精度的情况下,可以训练半精度,同时保持单精度网络的精度。这种同时使用单精度和半精度表示的技术称为混合精度技术。 ​ ...

Thu Oct 17 00:15:00 CST 2019 0 2134
记一次CUDA编程任务

     这个月6号开始,着手解决一个具有实际意义的计算任务。任务数据有9879896条,每条包含30个整数,任务是计算每两条数据之间的斯皮尔相关系数及其P值。原始数据只有500+MB,因此我并不认 ...

Thu Feb 16 18:12:00 CST 2017 4 8456
高性能计算学习路线(针对大二同学)

下面是给团队里的大二的同学列的高性能计算方向学习路线和学习资料汇总,可以供有这方面学习需求的同学参考。 (后面我会再加一个分布式机器学习方向学习路线,持续更新中...) 基础课程 (并行)算法设计 ...

Sun Oct 31 00:01:00 CST 2021 1 330
浅谈Pthread

最近由于疫情,一直宅在家里,日子过得非常划水。不过也是趁着这段时间的闲工夫,整理下并行计算一些基本点和常用实现方法。这里就不按照顺序展开了,先介绍下共享存储编程模式中的重要基础--pthread。 ...

Thu Feb 27 06:34:00 CST 2020 0 2638
高通DSP优化 - 介绍

高通骁龙处理器有不同的系列(5个系列):最高梯度包括SM8xxx和SDM8xx;稍微低一点的有SDM7xx、SDM6xx、SDM4xx和SDM2xx。不同的系列在CPU,GPU以及DSP等计算资源上有 ...

Sun Sep 27 07:22:00 CST 2020 0 1621
C#使用CUDA

随着信息处理的爆炸增长,传统使用CPU计算已经无法满足计算作业增长的需求,GPU的出现为批量作业提供了新的契机。GPU计算拥有很类库,比如CUDA、OpenCL等,但是可以发现CUDA是其中相对比较成 ...

Wed Nov 20 03:17:00 CST 2019 0 991
手把手建立Roofline模型(CPU)

Roofline模型原理 Roofline模型是由加州理工大学伯利克提出的用来建立当前计算平台在不同的计算强度(Operational Intensity)下能够达到的理论计算上限 。论文和基础理论 ...

Sat Mar 19 18:55:00 CST 2022 0 1526

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM