花费 29 ms
并行计算】用MPI进行分布式内存编程(一)

通过上一篇关于并行计算准备部分的介绍,我们知道MPI(Message-Passing-Interface 消息传递接口)实现并行是进程级别的,通过通信在进程之间进行消息传递。MPI并不是一种新的开发语言,它是一个定义了可以被C、C++和Fortran程序调用的函数库。这些函数库里面主要涉及 ...

Thu Apr 14 19:25:00 CST 2016 3 49239
显卡,显卡驱动,nvcc, cuda driver,cudatoolkit,cudnn到底是什么?

在使用深度学习框架的过程中一定会经常碰到这些东西,虽然anaconda有时会帮助我们自动地解决这些设置,但是有些特殊的库却还是需要我们手动配置环境,但是我对标题上的这些名词其实并不十分清楚,所以老是被 ...

Tue Nov 12 06:01:00 CST 2019 9 5822
基于dubbo框架下的RPC通讯协议性能测试

一、前言   Dubbo RPC服务框架支持丰富的传输协议、序列化方式等通讯相关的配置和扩展。dubbo执行一次RPC请求的过程大致如下:消费者(Consumer)向注册中心(Registry)执行 ...

Tue Mar 03 04:47:00 CST 2015 0 38034
并行计算】基于OpenMP的并行编程

我们目前的计算机都是基于冯偌伊曼结构的,在MIMD作为主要研究对象的系统中,分为两种类型:共享内存系统和分布式内存系统,之前我们介绍的基于MPI方式的并行计算编程是属于分布式内存系统的方式,现在我们研究一种基于OpenMP的共享内存系统的并行编程方法。OpenMP是一个什么东东 ...

Sat Oct 15 01:23:00 CST 2016 1 24151
Pytorch之Dataparallel源码解析

之前对Pytorch 1.0 的Dataparallel的使用方法一直似懂非懂,总是会碰到各种莫名其妙的问题,今天就好好从源头梳理一下,更好地理解它的原理或者说说下步骤。 源码地址: http ...

Sun Jun 02 21:59:00 CST 2019 1 5265
CUDA ---- Shared Memory

CUDA SHARED MEMORY shared memory在之前的博文有些介绍,这部分会专门讲解其内容。在global Memory部分,数据对齐和连续是很重要的话题,当使用L1的时候,对齐问 ...

Sun Jun 28 22:35:00 CST 2015 3 19502
并行计算】用MPI进行分布式内存编程(二)

通过上一篇中,知道了基本的MPI编写并行程序,最后的例子中,让使用0号进程做全局的求和的所有工作,而其他的进程却都不工作,这种方式也许是某种特定情况下的方案,但明显不是最好的方案。举个例 ...

Mon May 02 22:48:00 CST 2016 3 15715
CUDA ---- Stream and Event

Stream 一般来说,cuda c并行性表现在下面两个层面上: Kernel level Grid level 到目前为止,我们讨论的一直是kernel level的,也就是一个 ...

Wed Sep 21 07:38:00 CST 2016 0 14406
关于TbSchedule任务调度管理框架的整合部署

一、前言 任务调度管理作为基础架构通常会出现于我们的业务系统中,目的是让各种任务能够按计划有序执行。比如定时给用户发送邮件、将数据表中的数据同步到另一个数据表都是一个任务,这些相对耗时的操作通过任务 ...

Sat Dec 06 04:44:00 CST 2014 10 17202
CUDA ---- Warp解析

Warp 逻辑上,所有thread是并行的,但是,从硬件的角度来说,实际上并不是所有的thread能够在同一时刻执行,接下来我们将解释有关warp的一些本质。 Warps and Thread B ...

Sun May 31 08:02:00 CST 2015 2 17035

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM