标签【高性能计算】

Tensorcore使用方法

用于深度学习的自动混合精度深度神经网络训练传统上依赖IEEE单精度格式，但在混合精度的情况下，可以训练半精度，同时保持单精度网络的精度。这种同时使用单精度和半精度表示的技术称为混合精度技术。 ...

记一次CUDA编程任务

　　　　这个月6号开始，着手解决一个具有实际意义的计算任务。任务数据有9879896条，每条包含30个整数，任务是计算每两条数据之间的斯皮尔相关系数及其P值。原始数据只有500+MB，因此我并不认 ...

测试平台在我的上一篇博客中对比了VS2010中C#和C++在运算密集型程序中的性能。上一篇博客的链接： http://www.cnblogs.com/ytyt2002ytyt/archive/2 ...

下面是给团队里的大二的同学列的高性能计算方向学习路线和学习资料汇总，可以供有这方面学习需求的同学参考。（后面我会再加一个分布式机器学习方向学习路线，持续更新中...) 基础课程（并行）算法设计 ...

浅谈Pthread

最近由于疫情，一直宅在家里，日子过得非常划水。不过也是趁着这段时间的闲工夫，整理下并行计算一些基本点和常用实现方法。这里就不按照顺序展开了，先介绍下共享存储编程模式中的重要基础--pthread。 ...

高通DSP优化 - 介绍

高通骁龙处理器有不同的系列（5个系列）：最高梯度包括SM8xxx和SDM8xx；稍微低一点的有SDM7xx、SDM6xx、SDM4xx和SDM2xx。不同的系列在CPU，GPU以及DSP等计算资源上有 ...

C#使用CUDA

随着信息处理的爆炸增长，传统使用CPU计算已经无法满足计算作业增长的需求，GPU的出现为批量作业提供了新的契机。GPU计算拥有很类库，比如CUDA、OpenCL等，但是可以发现CUDA是其中相对比较成 ...

在计算机体系中，数据并行有两种实现路径：MIMD（Multiple Instruction Multiple Data，多指令流多数据流）和SIMD（Single Instruction M ...

在计算机体系中，数据并行有两种实现路径：MIMD（Multiple Instruction Multiple Data，多指令流多数据流） ...

手把手建立Roofline模型（CPU）

Roofline模型原理 Roofline模型是由加州理工大学伯利克提出的用来建立当前计算平台在不同的计算强度（Operational Intensity）下能够达到的理论计算上限。论文和基础理论 ...