Go語言在國產CPU平台上應用前景的探索與思考


http://www.chinaaet.com/article/3000087559

0 引言

    CPU是電子產品的核心,代表着信息產業的發展水平。CPU發展至今已經有四十多年的歷史了,實際就是Intel公司的發展歷史[1]。Intel的CPU和其兼容產品占領了PC的大半江山。我國CPU戰略已經發展十余年,部分領域完全具有核心技術,產業化取得積極進展,但是與國際主流廠商Intel等仍存在較大差距。國產CPU由於受多方因素制約,單核性能並不高,在2000年左右所有的微處理器廠商都轉向了多核微處理器的開發。為提升CPU性能,國產CPU均為多核設計。目前,部分產品雖然在黨政軍部門及重要的信息系統有所應用,但是由於產業生態還未建立,所應用的場景還比較簡單,可用於開發應用的編程語言也較為單一。國產CPU的發展事關我國信息產業的核心競爭力和可持續發展力。為了充分發揮國產CPU的性能,需要通過並行編程來解決。

    Go語言設計目標之一就是多核編程,不使用多線程編程模型,通過基於CSP的communication通道並發編程,使得並發編程更加簡便。Go語言原生支持廣泛應用的X86、X64指令集,而且支持龍芯的MIPS64及飛騰的ARM64指令集。這使得Go語言程序在跨平台移植上天生具有優勢。Go語言的其他一些特性使得其在國產CPU平台應用具有非常廣泛的前景。

1 Go語言簡介

    Go語言是2009年11月Google正式宣布推出的一種編程語言。它的並發機制使得編寫能夠充分利用多核和網絡通信的程序變得非常容易。Go語言是靜態類型的語言,它的類型系統沒有層級,完全垃圾回收,比典型的面向對象語言更輕量級;Go語言是一種編譯型語言,它結合了解釋型語言的游刃有余,動態類型語言的開發效率,以及靜態類型的安全性。

    Go編譯器支持包括:x86、x64、ARM、arm64、ppc64、ppc64le、mips、mipsle、mips64、mips64le、s390x多種不同的CPU指令集。可以支持包括FreeBSD、Linux、Solaris和Windows等的多種操作系統。Go語言是跨平台、跨操作系統的語言,部署非常簡單。Go 編譯生成的是一個靜態可執行文件,除了glibc外沒有其他外部依賴。Go的並發性好,而且goroutine 和 channel 使得編寫高並發的服務端軟件變得相當容易,非常適合用來服務器編程。目前Go語言已經成功的項目包括目前比較流行的雲框架Docker、NSQ等分布式框架等。

2 國產CPU平台簡介及應用現狀

    目前,我國自主研發的處理器芯片主要包括龍芯(MIPS64指令集)、申威(Alpha指令集)、飛騰(ARM64指令集)及兆芯(X86指令集)4類。商用領域基於龍芯3B1500 CPU、飛騰FA1500A CPU生產的商用服務器占據國產服務器主流位置,龍芯、飛騰服務器分別搭載中標麒麟及銀河麒麟操作系統。

    在商用領域,全國產化平台剛剛起步,配套的商用軟件較少,沒有建立起完整的產業生態,同時又受到處理器自身性能的影響,基於上述兩款主流處理器平台的服務器,主要還是用於對系統訪問並發及響應時間要求不高的Web網站類網絡應用服務。國產處理器應用服務的開發還是以Java語言為主,搭配開源JBoss、Ttomcat或國產中間件,數據庫采用國產數據庫或MySQL等開源數據庫。

3 Go語言在國產平台的優勢

3.1 國產平台現有的編程語言匱乏

    目前,基於國產CPU的國產化平台比較成熟的僅有C、C++編譯器。廠商對Java虛擬機在國產平台上進行編譯、適配及優化。由於Java應用運行過程中依賴的大量Java第三方框架都是源於X86構架體系,並未針對國產CPU進行優化,一些應用在大壓力或大並發等某些場景下會出現假死、宕機等情況,嚴重影響應用的正常運行。雖然國產平台也支持其他編程語言如Python、PHP等,但這類腳本語言的解釋器也是交叉編譯獲得的,並非自身支持,在進行跨平台交叉編譯過程中會遇到各種問題,很多問題需要軟件開發人員修改軟件源代碼,未經過大量適配驗證,很難保證其開發的應用的穩定性。

3.2 Go語言的跨平台及並發優勢

    Go語言原生支持龍芯CPU的MIPS64le指令集和飛騰CPU的ARM64指令集,天生具有跨平台優勢。Go開發應用在任意平台開發完成后,直接編譯,編譯后的二進制文件在同類平台可直接拷貝運行,無需再次重新編譯。除了glibc外,無需其他外部依賴。可以直接在該開發平台的任意計算機上運行,無需像Java運行那樣需要虛擬機,需要配置復雜的環境變量;在作為網絡服務時更不需要像Tomcat、Apache等的Web中間件。

    Go語言的異構平台移植也非常簡單,僅需要應用程序的源碼,在異構平台上直接編譯即可,且編譯后的二進制文件在同類平台可直接拷貝運行。Go語言本身就具有天生的跨平台優勢,大大降低了分布式異構計算平台的開發難度,非常適合在目前多構架的國產化平台上作為開發語言。

    Go語言在並發方面,goroutine和channel機制提供了輕量級並發機制;在性能方面,與Java的性能不分上下,而內存資源消耗方面,相對Java和其他動態語言,具備明顯的優勢。在網絡和HTTP應用方面,Go語言有良好的標准庫和生態系統支持,而在標准庫方面,已提供了處理多種網絡所需的輕量級的代碼庫,對網絡的核心協議HTTP的高並發支持,完全可以撼動Java。國產處理器由於指令集及工藝等多方面原因,導致單核計算性能不高,為提高整體計算能力均采用多核技術。如:龍芯3B1500為8核,商用服務器為雙路16核(2顆3B1500),飛騰FT1500A服務器為16核。因此,充分利用多核計算能力或搭建基於國產處理器的雲計算平台是目前國產化平台的提高整體性能發展的方向。

4 Go語言在國產環境下的移植

    以飛騰平台為例,飛騰CPU采用ARM64構架。首先在X86平台上交叉編譯出面向ARM64平台的Go語言自舉編譯工具,利用$GOOS=linux GOARCH=arm64./bootstrap.bash 編譯命令編譯出可在ARM64平台運行的Go語言自舉編譯工具,然后利用該自舉編譯工具在ARM64平台編譯安裝Go源碼。安裝完成后,Go語言會自動進行自身測試。測試完成后提示ALL TESTS PASSED,添加GOROOT至系統環境變量。Go語言的移植完成。龍芯平台移植過程與飛騰平台移植過程不同之處是在編譯自舉工具時GOARCH參數設置為MIPS64le。

5 Go語言的多核工作原理簡介

    Go語言可以快速高效地調用多核進行計算,其優勢源於Go語言的Go runtime的調度器[2]

    用戶空間線程和內核空間線程之間的映射關系有N:1、1:1和M:N 3種通常的線程模型。其中N:1模型是幾個用戶空間線程在一個OS線程上運行。該模型上下文切換非常快速,但不能利用多核系統的優點。1:1模型一個執行線程匹配一個OS線程。 它利用機器上的所有內核,但上下文切換速度較慢,因為它必須通過操作系統進行。

    Go通過使用M:N調度程序來取得上述兩種方式的最佳效果。它將任意數量的goroutine調度到任意數量的OS線程上。開發者可以獲得快速上下文切換,並利用系統中的所有內核。這種方法的主要缺點是增加了調度器的復雜性。

    為了完成調度任務,Go Scheduler使用3個主要實體,如圖1所示。

zs1-t1.gif

    M三角形表示OS線程。這是由操作系統管理的執行線程,其工作原理與標准POSIX線程相似。

    G圓圈代表一個goroutine。它包括堆棧、指令指針和其他重要的調度goroutines的信息,像任何可能被阻止的channel等。

    P是從N:1調度程序進入M:N調度程序的重要部分,表示調度的上下文。可以將其視為在單個線程上運行Go代碼的調度程序,一個局部的調度器。

    如圖2所示,有2個線程(M),每個線程都有一個上下文(P),每個線程都運行一個goroutine(G)。為了運行goroutines,線程必須持有一個上下文。

zs1-t2.gif

    P的數量可以通過GOMAXPROCS()來設置,代表了真正的並發度,即有多少個goroutine可以同時運行。可以使用它來調整Go進程到計算機的調用,例如在4核心PC上運行4個線程的Go代碼。

    白色的goroutines沒有運行,處於就緒狀態,正在等待被調度。P維護着這個隊列。在Go語言里,每當goroutine執行go語句時,goroutines都會添加到隊列的末尾。一旦上下文運行了一個goroutine直到調度點,它會從其運行隊列中彈出一個goroutine,設置堆棧和指令指針,並開始運行goroutine。

    圖3中當一個OS線程被阻塞時,P可以轉而投奔另一個系統線程。從圖中看到,當一個線程M0陷入阻塞時,P轉而在OS線程M1上運行。調度器保證有足夠的線程來運行所有P。

zs1-t3.gif

    M1可能是被創建,或者從線程緩存中取出。當syscall返回時,它必須嘗試獲取一個上下文來運行返回的goroutine,一般情況下,它會從其他的系統線程取得一個上下文,如果沒有獲取到,它就把goroutine放在一個全局隊列中,放入線程緩存里。上下文會周期性地檢查全局隊列,否則全局隊列上的goroutine永遠無法執行。

    如果上下文的運行隊列的工作量不平衡,如圖4所示,則可能會發生這種情況。P所分配的任務G很快就執行完了(分配不均),這就導致了一個上下文P空閑而系統忙碌。當一個上下文用完時,它將嘗試從另一個上下文中竊取大約一半的運行隊列。這確保在每個上下文上總是有工作要做,這反過來確保所有線程都以最大容量工作,每個系統線程都能充分地使用。

zs1-t4.gif

6 實測Go語言在國產平台的多核調用

6.1 並行積分計算原理

    並行計算積分。計算積分是一個用來展示並發編程和它本身加速度(表示的是多處理器執行時間和單處理器執行時間的比值)的常見例子,例如一個函數f(x)在[a,b]上的積分:

zs1-gs1-4.gif

    通過循環觸發goroutine(協程)來實現np個子算組的並行運算,通過Go代碼來計算Pi的積分:

    zs1-gs5.gif

6.2 Go語言並行計算核心代碼實現

    核心代碼:

zs1-6.2-x1.gif

    上述計算中,一個計算組是通過 block(start,end int,c chan float64)這個函數實現的,這個函數計算從start到end之間的矩形面積、通道(channl)c則是用來在結束的時候進行同步,並且把計算組的結果送到主線程。主線程通過調用rutime.GOMAXPROCS(np)建立運行時所使用的CPU核數,np為使用CPU的個數,然后通過make構造一個有np大小緩存的通道,進行阻塞,確保計算並行進行。最后把執行np次的結果進行累加以獲得pi的結果。

6.3 Go語言並行計算在國產CPU多核調用測試

6.3.1 測試環境

    飛騰平台:FT1500A16核×1;內存16 GB;Go編譯器1.8.1;操作系統:銀河麒麟4.0。

    龍芯平台:3B1500A8核×2;內存16 GB;Go編譯器1.8.1;操作系統:中標麒麟6.0。

6.3.2 測試方法

    程序內計時,每次測試3次,取最短時間。結果如圖5、圖6所示。

zs1-t5.gif

zs1-t6.gif

    上面兩組數據圖展示了,在龍芯3B1500處理器和飛騰FT1500A上,並行Go計算Pi的效率,對於小的問題規模(n=105,106),使用多核不能增加的執行時間,這是因為過多的進程調度和初始化協程導致的,大部分時間沒有執行並行計算。當問題規模n變大的時候(n=108,109,1010),使用多處理器能夠顯著地縮短計算所需的執行時間。

6.3.3 結果對比

    結果對比如圖7所示。

zs1-t7.gif

    從圖7可以看出,與其他公開的測試的數據基本一致,飛騰FT1500A無論單核和多核性能均比龍芯3B1500CPU計算能力快出近一倍。

6.4 Go語言在調用多核進行並行計算的性能線性特性

    為了能夠體現並發執行的加速度,以飛騰F1500A為例子以通過式(6)計算速度:

    zs1-gs6.gif

    在這里Tnp和TMaxnp是處理器當前使用核數計算所用時間和處理器最大核數計算所用時間。結果如圖8所示。

zs1-t8.gif

    在圖8中,當問題規模非常大的時候,增長幾乎就是線性的了,特別是問題規模達到(n=109)的時候,幾乎和擬合趨勢線重合。

7 結束語

    本文對Go語言在多線程領域編程、跨異構平台及編程難易程度的優勢進行了闡述;對目前我國國產CPU在商業化應用領域現狀進行了分析。使用Go語言在主流兩款國產平台對多核調用進行測試。同時,對Go語言的多核工作原理進行了簡要分析。綜上所述,Go語言非常適合作為除Java外的另一種國產CPU平台應用開發語言,有較為廣泛的應用前景。本文對未來Go語言在國產CPU平台上的開發及應用提供了一定的參考價值。

參考文獻

[1] 芮雪,王亮亮,楊琴.國產處理器研究與發展現狀綜述[J].現代計算機(普及版),.2014(3):15-19.

[2] MORSING D.The Go scheduler[Z].2013.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM