測試平台

在我的上一篇博客中對比了VS2010中C#和C++在運算密集型程序中的性能。上一篇博客的鏈接：

http://www.cnblogs.com/ytyt2002ytyt/archive/2011/11/24/2261104.html

當時是在AMD 速龍9650 CPU(4核心)下的測試結果。

隨着VS2012、Intel Parallel Studio XE 2013中新一代編譯器的發布，再測試一下VC11編譯器相對於VC10的提升，以及.net4.5 .net4.0對C#的性能區別。Fortran則使用了最新的 Intel Parallel Studio XE 2013。另外Fortran作為老牌的科學計算語言，也試圖重點測試一下相對於現代主流編程語言C++和C#在性能上的差異。Fortran作為匯編后最早誕生的編程語言，其矩陣運算非常方便，幾十年間長期占據了性能上的寶座。Fortran 90/95、Fortran2003/2008 又加入大量現代語言特性，在20年前就內置了並行化的支持。

測試平台：

CPU Intel Xeon E3 1230v2 3.5G 4核8線程

Win7 64bit

編譯器：

C++          VC11(VS2012)

Fortran      Intel Parallel Studio XE 2013

C#           .net4.0 .net4.5

測試代碼

不過為了公平起見，下列的測試中只使用了一個線程，沒有並行化，也沒有矩陣運算，均為默認參數編譯。

C#和C++代碼和之前的測試程序一樣

C++代碼：

C++代碼#include <stdio.h> 
#include <stdlib.h> 
#include <time.h> 
#include <math.h> 

//為cin cout 提供
#include <iostream>
using namespace std;

#define INTEG_FUNC(x) fabs(sin(x)) //計算公式

double dclock(void); 

int main(void) 
{ 
	unsigned int i, j, N; 
	double step, x_i, sum; 
	double start, finish, duration, clock_t; 
	double interval_begin = 0.0; 
	double interval_end = 2.0 * 3.141592653589793238; 

	start = clock(); //初始時間

	printf(" \n"); 
	printf(" Number of中文 | Computed Integral | \n"); //Win7下中文顯示正常
	printf(" Interior Points | | \n"); 

	for (j=2;j<27;j++) 
	{  
		N = 1 << j;

		step = (interval_end - interval_begin) / N; 
		sum = INTEG_FUNC(interval_begin) * step / 2.0; 

		for (i=1;i<N;i++) 
		{ 
			x_i = i * step; 
			sum += INTEG_FUNC(x_i) * step; 
		} 

		sum += INTEG_FUNC(interval_end) * step / 2.0; 

		//printf(" %10d | %14e | \n", N, sum); 
		printf(" %14e \n", sum); 
	} 

	finish = clock(); //結束時間
	duration = (finish - start); 
	printf(" \n"); 
	printf(" time = %10e \n", duration); 
	printf(" \n"); 

	int tempA;
	cin>>tempA;

	return 0; 
}

C#代碼：

C#代碼using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading.Tasks;

namespace ConsoleApplication1
{
    class Program
    {
        static void Main(string[] args)
        {
            int time = System.Environment.TickCount;  //添加計時器

            #region
            int i, j, N;
            double step, x_i, sum;
            double start, finish, duration, clock_t;
            double interval_begin = 0.0;
            double interval_end = 2.0 * 3.141592653589793238;

            for (j = 2; j < 27; j++)
            {
                N = 1 << j;
                step = (interval_end - interval_begin) / N;
                sum = Math.Abs(Math.Sin(interval_begin)) * step / 2.0;

                for (i = 1; i < N; i++)
                {
                    x_i = i * step;
                    sum += Math.Abs(Math.Sin(x_i)) * step;
                }

                sum += Math.Abs(Math.Sin(interval_end)) * step / 2.0;
                Console.Write(sum.ToString() + "\r\n");
            }

            Console.Write((System.Environment.TickCount - time).ToString());
            Console.ReadLine();
            #endregion
        }
    }
}

Fortran代碼：

Fortran代碼program ForAllProgram
	implicit none
	real(8) :: time1,time2
	integer :: i,j,k,N
	real(8) :: step, x_i, s
	real(8) :: interval_begin = 0.0
	real(8) :: interval_end = 2.0 * 3.141592653589793238
	real, allocatable :: ArrySum(:)	!          
	
	call CPU_TIME(time1)
	do j = 2, 26
		N=2**j !N = 1 << j;  位操作用乘方操作代替
		step = (interval_end - interval_begin) / N;
        s = Abs(Sin(interval_begin)) * step / 2.0;
				
		do i = 1, N-1 !這里對應於C++的<N是N-1
			x_i = i * step;
            s =s+ Abs(Sin(x_i)) * step;
		end do
		s =s+ Abs(Sin(interval_end)) * step / 2.0;
		print *, s
	end do
	call CPU_TIME(time2)
	print *,time2-time1
	
end program

注意Fortran中用乘方代替了位操作，另外Do循環到N-1對應於C++中的<N

測試結果

時間單位：毫秒

時間單位：毫秒越小越好

測試結論

C#在.net 4.5 和.net 4.0相比，性能只是在.net4.5的32bit中略有提升。奇怪的是.net4.5中，32bit的性能居然高於64bit的性能。

C++ 在VS2012比VS2010有了顯著的提升，微軟的C++CX 性能可能和Intel的C++性能相近了。64bit性能顯著高於32bit性能。

Fortran在運算密集型的問題中，性能極其恐怖，甚至超常我原本的想象。未加任何優化，性能超過C++的3倍，是C#的5-6倍。數值計算的王者看了還是非Fortran莫屬。如此高的性能可能是因為：默認即可充分利用到Simd向量化(本機的AVX指令集)。而C++即使啟用了Intel的向量化編譯(Intel默認是啟用的)，因為復雜的語法也很難充分實現自動向量化。需要加入向量化編譯指令，如#program simd 等，甚至需要手工編碼向量化(如OpenCV中的優化實現)。這樣程序優化的工作量和程序復雜度將會大為提升。

可見進行大規模科學計算，Fortran仍然是最適合的選擇，再加上大量現存的數學計算類庫都是由Fortran編寫，語法也相對簡單，確實是數值計算的絕配。

C++在與系統底層交互中則有先天的優勢；C#適合表現層開發和整體架構設計，最為便捷優雅。

展望

下一篇將繼續測試CPU並行化以及GPU加速的性能。根據以往的經驗，GTX460級別的顯卡在float類型的計算中，優化后能達到CPU單線程的10-20倍性能。但考慮到CPU多核心並行后，以及Fortran向量化恐怖的性能，估計最終GPU的優勢不會那么大，可能只有2-3倍的優勢吧。對於雙精度計算，由於桌面級顯卡的雙精度只有單精度的1/8（tesla運算卡是1/2,但價格昂貴，最新的開普勒110架構tesla k20 和Titans則是1/3,理論雙精度超過1T ），所以估計費米核心tesla雙精度也只能達到8線程CPU並行的2-3被，開普勒或許能更高些。不過這些只是推測，待到下次測試后才能見分曉。

本文地址：楊韜的學習備忘錄 http://www.cnblogs.com/ytyt2002ytyt/archive/2013/04/02/2996718.html

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 C++：幾種callable實現方式的性能對比 C#中 Queue List LinkedList 性能對比 c++ 判斷是64還是32位系統 C# 32位程序在64位系統下運行中解決重定向問題 C# 如何判斷系統是32位還是64位 python cython c 性能對比 2017年的golang、python、php、c++、c、java、Nodejs性能對比[續] 【C#】C#中使用GDAL3（一）：Windows下超詳細編譯C#版GDAL3.3.0（VS2015+.NET 4+32位/64位） python性能對比 Net Core下多種ORM框架特性及性能對比