标签【并行计算】

【并行计算】用MPI进行分布式内存编程（一）

通过上一篇关于并行计算准备部分的介绍，我们知道MPI（Message-Passing-Interface 消息传递接口）实现并行是进程级别的，通过通信在进程之间进行消息传递。MPI并不是一种新的开发语言，它是一个定义了可以被C、C++和Fortran程序调用的函数库。这些函数库里面主要涉及 ...

显卡，显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn到底是什么？

在使用深度学习框架的过程中一定会经常碰到这些东西，虽然anaconda有时会帮助我们自动地解决这些设置，但是有些特殊的库却还是需要我们手动配置环境，但是我对标题上的这些名词其实并不十分清楚，所以老是被 ...

基于dubbo框架下的RPC通讯协议性能测试

一、前言　　Dubbo RPC服务框架支持丰富的传输协议、序列化方式等通讯相关的配置和扩展。dubbo执行一次RPC请求的过程大致如下：消费者（Consumer）向注册中心（Registry）执行 ...

【并行计算】基于OpenMP的并行编程

我们目前的计算机都是基于冯偌伊曼结构的，在MIMD作为主要研究对象的系统中，分为两种类型：共享内存系统和分布式内存系统，之前我们介绍的基于MPI方式的并行计算编程是属于分布式内存系统的方式，现在我们研究一种基于OpenMP的共享内存系统的并行编程方法。OpenMP是一个什么东东 ...

Pytorch之Dataparallel源码解析

之前对Pytorch 1.0 的Dataparallel的使用方法一直似懂非懂，总是会碰到各种莫名其妙的问题，今天就好好从源头梳理一下，更好地理解它的原理或者说说下步骤。源码地址: http ...

CUDA ---- Shared Memory

CUDA SHARED MEMORY shared memory在之前的博文有些介绍，这部分会专门讲解其内容。在global Memory部分，数据对齐和连续是很重要的话题，当使用L1的时候，对齐问 ...

【并行计算】用MPI进行分布式内存编程（二）

通过上一篇中，知道了基本的MPI编写并行程序，最后的例子中，让使用0号进程做全局的求和的所有工作，而其他的进程却都不工作，这种方式也许是某种特定情况下的方案，但明显不是最好的方案。举个例 ...

CUDA ---- Stream and Event

Stream 一般来说，cuda c并行性表现在下面两个层面上： Kernel level Grid level 到目前为止，我们讨论的一直是kernel level的，也就是一个 ...

关于TbSchedule任务调度管理框架的整合部署

一、前言任务调度管理作为基础架构通常会出现于我们的业务系统中，目的是让各种任务能够按计划有序执行。比如定时给用户发送邮件、将数据表中的数据同步到另一个数据表都是一个任务，这些相对耗时的操作通过任务 ...

CUDA ---- Warp解析

Warp 逻辑上，所有thread是并行的，但是，从硬件的角度来说，实际上并不是所有的thread能够在同一时刻执行，接下来我们将解释有关warp的一些本质。 Warps and Thread B ...

相关标签