Netty系列之Netty高性能之道

本文轉載自查看原文 2017-05-20 09:07 1890

1. 背景

1.1. 驚人的性能數據

近期一個圈內朋友通過私信告訴我，通過使用Netty4 + Thrift壓縮二進制編解碼技術。他們實現了10W TPS（1K的復雜POJO對象）的跨節點遠程服務調用。

相比於傳統基於Java序列化+BIO（同步堵塞IO）的通信框架，性能提升了8倍多。

其實。我對這個數據並不感到吃驚。依據我5年多的NIO編程經驗，通過選擇合適的NIO框架，加上高性能的壓縮二進制編解碼技術，精心的設計Reactor線程模型，達到上述性能指標是全然有可能的。

以下我們就一起來看下Netty是怎樣支持10W TPS的跨節點遠程服務調用的，在正式開始解說之前，我們先簡介下Netty。

Netty是一個高性能、異步事件驅動的NIO框架。它提供了對TCP、UDP和文件傳輸的支持，作為一個異步NIO框架，Netty的全部IO操作都是異步非堵塞的，通過Future-Listener機制，用戶能夠方便的主動獲取或者通過通知機制獲得IO操作結果。1.2. Netty基礎入門

作為當前最流行的NIO框架，Netty在互聯網領域、大數據分布式計算領域、游戲行業、通信行業等獲得了廣泛的應用，一些業界著名的開源組件也基於Netty的NIO框架構建。

2. Netty高性能之道

2.1. RPC調用的性能模型分析

2.1.1. 傳統RPC調用性能差的三宗罪

網絡傳輸方式問題：傳統的RPC框架或者基於RMI等方式的遠程服務（過程）調用採用了同步堵塞IO，當client的並發壓力或者網絡時延增大之后。同步堵塞IO會因為頻繁的wait導致IO線程常常性的堵塞，因為線程無法高效的工作。IO處理能力自然下降。

以下，我們通過BIO通信模型圖看下BIO通信的弊端：

圖2-1 BIO通信模型圖

採用BIO通信模型的服務端，通常由一個獨立的Acceptor線程負責監聽client的連接。接收到client連接之后為client連接創建一個新的線程處理請求消息。處理完畢之后。返回應答消息給client，線程銷毀，這就是典型的一請求一應答模型。該架構最大的問題就是不具備彈性伸縮能力，當並發訪問量添加后，服務端的線程個數和並發訪問數成線性正比，因為線程是JAVA虛擬機很寶貴的系統資源。當線程數膨脹之后，系統的性能急劇下降，隨着並發量的繼續添加。可能會發生句柄溢出、線程堆棧溢出等問題。並導致server終於宕機。

序列化方式問題：Java序列化存在例如以下幾個典型問題：

1) Java序列化機制是Java內部的一種對象編解碼技術。無法跨語言使用。比如對於異構系統之間的對接，Java序列化后的碼流須要可以通過其他語言反序列化成原始對象（副本）。眼下非常難支持；

2) 相比於其他開源的序列化框架。Java序列化后的碼流太大，不管是網絡傳輸還是持久化到磁盤。都會導致額外的資源占用；

3) 序列化性能差（CPU資源占用高）。

線程模型問題：因為採用同步堵塞IO，這會導致每一個TCP連接都占用1個線程。因為線程資源是JVM虛擬機很寶貴的資源，當IO讀寫堵塞導致線程無法及時釋放時。會導致系統性能急劇下降，嚴重的甚至會導致虛擬機無法創建新的線程。

2.1.2. 高性能的三個主題

1) 傳輸：用什么樣的通道將數據發送給對方，BIO、NIO或者AIO。IO模型在非常大程度上決定了框架的性能。

2) 協議：採用什么樣的通信協議，HTTP或者內部私有協議。協議的選擇不同，性能模型也不同。

相比於公有協議，內部私有協議的性能通常能夠被設計的更優。

3) 線程：數據報怎樣讀取？讀取之后的編解碼在哪個線程進行。編解碼后的消息怎樣派發，Reactor線程模型的不同，對性能的影響也很大。

圖2-2 RPC調用性能三要素

2.2. Netty高性能之道

2.2.1. 異步非堵塞通信

在IO編程過程中。當須要同一時候處理多個client接入請求時，能夠利用多線程或者IO多路復用技術進行處理。IO多路復用技術通過把多個IO的堵塞復用到同一個select的堵塞上，從而使得系統在單線程的情況下能夠同一時候處理多個client請求。

與傳統的多線程/多進程模型比，I/O多路復用的最大優勢是系統開銷小，系統不須要創建新的額外進程或者線程，也不須要維護這些進程和線程的執行，減少了系統的維護工作量，節省了系統資源。

JDK1.4提供了對非堵塞IO（NIO）的支持，JDK1.5_update10版本號使用epoll替代了傳統的select/poll。極大的提升了NIO通信的性能。

JDK NIO通信模型例如以下所看到的：

圖2-3 NIO的多路復用模型圖

與Socket類和ServerSocket類相相應，NIO也提供了SocketChannel和ServerSocketChannel兩種不同的套接字通道實現。這兩種新增的通道都支持堵塞和非堵塞兩種模式。堵塞模式使用很easy，可是性能和可靠性都不好。非堵塞模式正好相反。開發者一般能夠依據自己的須要來選擇合適的模式。一般來說。低負載、低並發的應用程序能夠選擇同步堵塞IO以減少編程復雜度。可是對於高負載、高並發的網絡應用，須要使用NIO的非堵塞模式進行開發。

Netty架構依照Reactor模式設計和實現。它的服務端通信序列圖例如以下：

圖2-3 NIO服務端通信序列圖

client通信序列圖例如以下：

圖2-4 NIOclient通信序列圖

Netty的IO線程NioEventLoop因為聚合了多路復用器Selector，能夠同一時候並發處理成百上千個clientChannel，因為讀寫操作都是非堵塞的，這就能夠充分提升IO線程的執行效率。避免因為頻繁IO堵塞導致的線程掛起。另外。因為Netty採用了異步通信模式，一個IO線程能夠並發處理N個client連接和讀寫操作。這從根本上攻克了傳統同步堵塞IO一連接一線程模型，架構的性能、彈性伸縮能力和可靠性都得到了極大的提升。

2.2.2. 零拷貝

非常多用戶都聽說過Netty具有“零拷貝”功能。可是具體體如今哪里又說不清楚，本小節就具體對Netty的“零拷貝”功能進行解說。

Netty的“零拷貝”主要體如今例如以下三個方面：

1) Netty的接收和發送ByteBuffer採用DIRECT BUFFERS，使用堆外直接內存進行Socket讀寫，不須要進行字節緩沖區的二次拷貝。假設使用傳統的堆內存（HEAP BUFFERS）進行Socket讀寫。JVM會將堆內存Buffer拷貝一份到直接內存中，然后才寫入Socket中。相比於堆外直接內存，消息在發送過程中多了一次緩沖區的內存拷貝。

2) Netty提供了組合Buffer對象。能夠聚合多個ByteBuffer對象，用戶能夠像操作一個Buffer那樣方便的對組合Buffer進行操作，避免了傳統通過內存拷貝的方式將幾個小Buffer合並成一個大的Buffer。

3) Netty的文件傳輸採用了transferTo方法，它能夠直接將文件緩沖區的數據發送到目標Channel，避免了傳統通過循環write方式導致的內存拷貝問題。

以下，我們對上述三種“零拷貝”進行說明，先看Netty 接收Buffer的創建：

圖2-5 異步消息讀取“零拷貝”

每循環讀取一次消息，就通過ByteBufAllocator的ioBuffer方法獲取ByteBuf對象，以下繼續看它的接口定義：

圖2-6 ByteBufAllocator 通過ioBuffer分配堆外內存

當進行Socket IO讀寫的時候。為了避免從堆內存拷貝一份副本到直接內存，Netty的ByteBuf分配器直接創建非堆內存避免緩沖區的二次拷貝。通過“零拷貝”來提升讀寫性能。

以下我們繼續看另外一種“零拷貝”的實現CompositeByteBuf，它對外將多個ByteBuf封裝成一個ByteBuf，對外提供統一封裝后的ByteBuf接口。它的類定義例如以下：

圖2-7 CompositeByteBuf類繼承關系

通過繼承關系我們能夠看出CompositeByteBuf實際就是個ByteBuf的包裝器，它將多個ByteBuf組合成一個集合，然后對外提供統一的ByteBuf接口，相關定義例如以下：

圖2-8 CompositeByteBuf類定義

加入ByteBuf。不須要做內存拷貝。相關代碼例如以下：

圖2-9 新增ByteBuf的“零拷貝”

最后，我們看下文件傳輸的“零拷貝”：

圖2-10 文件傳輸“零拷貝”

Netty文件傳輸DefaultFileRegion通過transferTo方法將文件發送到目標Channel中。以下重點看FileChannel的transferTo方法，它的API DOC說明例如以下：

圖2-11 文件傳輸 “零拷貝”

對於非常多操作系統它直接將文件緩沖區的內容發送到目標Channel中，而不須要通過拷貝的方式，這是一種更加高效的傳輸方式，它實現了文件傳輸的“零拷貝”。

2.2.3. 內存池

隨着JVM虛擬機和JIT即時編譯技術的發展。對象的分配和回收是個很輕量級的工作。

可是對於緩沖區Buffer，情況卻稍有不同。特別是對於堆外直接內存的分配和回收，是一件耗時的操作。為了盡量重用緩沖區。Netty提供了基於內存池的緩沖區重用機制。以下我們一起看下Netty ByteBuf的實現：

圖2-12 內存池ByteBuf

Netty提供了多種內存管理策略。通過在啟動輔助類中配置相關參數，能夠實現差異化的定制。

以下通過性能測試，我們看下基於內存池循環利用的ByteBuf和普通ByteBuf的性能差異。

用例一，使用內存池分配器創建直接內存緩沖區：

圖2-13 基於內存池的非堆內存緩沖區測試用例

用例二，使用非堆內存分配器創建的直接內存緩沖區：

圖2-14 基於非內存池創建的非堆內存緩沖區測試用例

各運行300萬次。性能對照結果例如以下所看到的：

圖2-15 內存池和非內存池緩沖區寫入性能對照

性能測試表明。採用內存池的ByteBuf相比於朝生夕滅的ByteBuf，性能高23倍左右（性能數據與使用場景強相關）。

以下我們一起簡單分析下Netty內存池的內存分配：

圖2-16 AbstractByteBufAllocator的緩沖區分配

繼續看newDirectBuffer方法，我們發現它是一個抽象方法，由AbstractByteBufAllocator的子類負責詳細實現。代碼例如以下：

圖2-17 newDirectBuffer的不同實現

代碼跳轉到PooledByteBufAllocator的newDirectBuffer方法，從Cache中獲取內存區域PoolArena。調用它的allocate方法進行內存分配：

圖2-18 PooledByteBufAllocator的內存分配

PoolArena的allocate方法例如以下：

圖2-18 PoolArena的緩沖區分配

我們重點分析newByteBuf的實現，它相同是個抽象方法。由子類DirectArena和HeapArena來實現不同類型的緩沖區分配。因為測試用例使用的是堆外內存，

圖2-19 PoolArena的newByteBuf抽象方法

因此重點分析DirectArena的實現：假設沒有開啟使用sun的unsafe。則

圖2-20 DirectArena的newByteBuf方法實現

運行PooledDirectByteBuf的newInstance方法，代碼例如以下：

圖2-21 PooledDirectByteBuf的newInstance方法實現

通過RECYCLER的get方法循環使用ByteBuf對象，假設是非內存池實現。則直接創建一個新的ByteBuf對象。從緩沖池中獲取ByteBuf之后，調用AbstractReferenceCountedByteBuf的setRefCnt方法設置引用計數器。用於對象的引用計數和內存回收（類似JVM垃圾回收機制）。

2.2.4. 高效的Reactor線程模型

經常使用的Reactor線程模型有三種。分別例如以下：

1) Reactor單線程模型。

2) Reactor多線程模型；

3) 主從Reactor多線程模型

Reactor單線程模型，指的是全部的IO操作都在同一個NIO線程上面完畢。NIO線程的職責例如以下：

1) 作為NIO服務端，接收client的TCP連接。

2) 作為NIOclient。向服務端發起TCP連接；

3) 讀取通信對端的請求或者應答消息；

4) 向通信對端發送消息請求或者應答消息。

Reactor單線程模型示意圖例如以下所看到的：

圖2-22 Reactor單線程模型

因為Reactor模式使用的是異步非堵塞IO，全部的IO操作都不會導致堵塞，理論上一個線程能夠獨立處理全部IO相關的操作。

從架構層面看。一個NIO線程確實能夠完畢其承擔的職責。比如，通過Acceptor接收client的TCP連接請求消息，鏈路建立成功之后，通過Dispatch將相應的ByteBuffer派發到指定的Handler上進行消息解碼。

用戶Handler能夠通過NIO線程將消息發送給client。

對於一些小容量應用場景，能夠使用單線程模型。可是對於高負載、大並發的應用卻不合適，主要原因例如以下：

1) 一個NIO線程同一時候處理成百上千的鏈路。性能上無法支撐，即便NIO線程的CPU負荷達到100%，也無法滿足海量消息的編碼、解碼、讀取和發送。

2) 當NIO線程負載過重之后，處理速度將變慢，這會導致大量client連接超時，超時之后往往會進行重發，這更加重了NIO線程的負載。終於會導致大量消息積壓和處理超時，NIO線程會成為系統的性能瓶頸；

3) 可靠性問題：一旦NIO線程意外跑飛，或者進入死循環，會導致整個系統通信模塊不可用，不能接收和處理外部消息，造成節點故障。

為了解決這些問題。演進出了Reactor多線程模型，以下我們一起學習下Reactor多線程模型。

Rector多線程模型與單線程模型最大的差別就是有一組NIO線程處理IO操作，它的原理圖例如以下：

圖2-23 Reactor多線程模型

Reactor多線程模型的特點：

1) 有專門一個NIO線程-Acceptor線程用於監聽服務端，接收client的TCP連接請求。

2) 網絡IO操作-讀、寫等由一個NIO線程池負責。線程池能夠採用標准的JDK線程池實現，它包括一個任務隊列和N個可用的線程。由這些NIO線程負責消息的讀取、解碼、編碼和發送。

3) 1個NIO線程能夠同一時候處理N條鏈路。可是1個鏈路僅僅相應1個NIO線程，防止發生並發操作問題。

在絕大多數場景下，Reactor多線程模型都能夠滿足性能需求；可是，在極特殊應用場景中，一個NIO線程負責監聽和處理全部的client連接可能會存在性能問題。

比如百萬client並發連接，或者服務端須要對client的握手消息進行安全認證。認證本身很損耗性能。在這類場景下，單獨一個Acceptor線程可能會存在性能不足問題，為了解決性能問題，產生了第三種Reactor線程模型-主從Reactor多線程模型。

主從Reactor線程模型的特點是：服務端用於接收client連接的不再是個1個單獨的NIO線程。而是一個獨立的NIO線程池。

Acceptor接收到clientTCP連接請求處理完畢后（可能包括接入認證等）。將新創建的SocketChannel注冊到IO線程池（sub reactor線程池）的某個IO線程上，由它負責SocketChannel的讀寫和編解碼工作。Acceptor線程池只只用於client的登陸、握手和安全認證。一旦鏈路建立成功，就將鏈路注冊到后端subReactor線程池的IO線程上，由IO線程負責興許的IO操作。

它的線程模型例如以下圖所看到的：

圖2-24 Reactor主從多線程模型

利用主從NIO線程模型，能夠解決1個服務端監聽線程無法有效處理全部client連接的性能不足問題。因此。在Netty的官方demo中，推薦使用該線程模型。

其實。Netty的線程模型並不是固定不變。通過在啟動輔助類中創建不同的EventLoopGroup實例並通過適當的參數配置，就能夠支持上述三種Reactor線程模型。

正是由於Netty 對Reactor線程模型的支持提供了靈活的定制能力，所以能夠滿足不同業務場景的性能訴求。

2.2.5. 無鎖化的串行設計理念

在大多數場景下，並行多線程處理能夠提升系統的並發性能。可是，假設對於共享資源的並發訪問處理不當。會帶來嚴重的鎖競爭。這終於會導致性能的下降。為了盡可能的避免鎖競爭帶來的性能損耗，能夠通過串行化設計。即消息的處理盡可能在同一個線程內完畢。期間不進行線程切換。這樣就避免了多線程競爭和同步鎖。

為了盡可能提升性能，Netty採用了串行無鎖化設計，在IO線程內部進行串行操作，避免多線程競爭導致的性能下降。表面上看，串行化設計似乎CPU利用率不高。並發程度不夠。可是，通過調整NIO線程池的線程參數，能夠同一時候啟動多個串行化的線程並行執行，這樣的局部無鎖化的串行線程設計相比一個隊列-多個工作線程模型性能更優。

Netty的串行化設計工作原理圖例如以下：

圖2-25 Netty串行化工作原理圖

Netty的NioEventLoop讀取到消息之后。直接調用ChannelPipeline的fireChannelRead(Object msg)。僅僅要用戶不主動切換線程，一直會由NioEventLoop調用到用戶的Handler，期間不進行線程切換。這樣的串行化處理方式避免了多線程操作導致的鎖的競爭，從性能角度看是最優的。

2.2.6. 高效的並發編程

Netty的高效並發編程主要體如今例如以下幾點：

1) volatile的大量、正確使用;

2) CAS和原子類的廣泛使用。

3) 線程安全容器的使用；

4) 通過讀寫鎖提升並發性能。

假設大家想了解Netty高效並發編程的細節，能夠閱讀之前我在微博分享的《多線程並發編程在 Netty 中的應用分析》，在這篇文章中對Netty的多線程技巧和應用進行了具體的介紹和分析。

2.2.7. 高性能的序列化框架

影響序列化性能的關鍵因素總結例如以下：

1) 序列化后的碼流大小（網絡帶寬的占用）；

2) 序列化&反序列化的性能（CPU資源占用）。

3) 是否支持跨語言（異構系統的對接和開發語言切換）。

Netty默認提供了對Google Protobuf的支持。通過擴展Netty的編解碼接口。用戶能夠實現其他的高性能序列化框架。比如Thrift的壓縮二進制編解碼框架。

以下我們一起看下不同序列化&反序列化框架序列化后的字節數組對照：

圖2-26 各序列化框架序列化碼流大小對照

從上圖能夠看出。Protobuf序列化后的碼流僅僅有Java序列化的1/4左右。正是因為Java原生序列化性能表現太差，才催生出了各種高性能的開源序列化技術和框架（性能差僅僅是當中的一個原因，還有跨語言、IDL定義等其他因素）。

2.2.8. 靈活的TCP參數配置能力

合理設置TCP參數在某些場景下對於性能的提升能夠起到顯著的效果。比如SO_RCVBUF和SO_SNDBUF。

假設設置不當，對性能的影響是很大的。以下我們總結下對性能影響比較大的幾個配置項：

1) SO_RCVBUF和SO_SNDBUF：通常建議值為128K或者256K；

2) SO_TCPNODELAY：NAGLE算法通過將緩沖區內的小封包自己主動相連，組成較大的封包，阻止大量小封包的發送堵塞網絡。從而提高網絡應用效率。可是對於時延敏感的應用場景須要關閉該優化算法。

3) 軟中斷：假設Linux內核版本號支持RPS（2.6.35以上版本號），開啟RPS后能夠實現軟中斷，提升網絡吞吐量。RPS依據數據包的源地址，目的地址以及目的和源port，計算出一個hash值，然后依據這個hash值來選擇軟中斷執行的cpu。從上層來看，也就是說將每一個連接和cpu綁定，並通過這個hash值，來均衡軟中斷在多個cpu上，提升網絡並行處理性能。

Netty在啟動輔助類中能夠靈活的配置TCP參數，滿足不同的用戶場景。相關配置接口定義例如以下：

圖2-27 Netty的TCP參數配置定義

2.3. 總結

通過對Netty的架構和性能模型進行分析。我們發現Netty架構的高性能是被精心設計和實現的，得益於高質量的架構和代碼，Netty支持10W TPS的跨節點服務調用並非件十分困難的事情。

峰哥地址：http://www.infoq.com/cn/articles/netty-high-performance#theCommentsSection。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Netty系列之Netty高性能之道 Netty系列之Netty高性能之道【讀后感】Netty 系列之 Netty 高性能之道 - 相比 Mina 怎樣？簡單談談Netty的高性能之道一篇文章，讀懂Netty的高性能架構之道一篇文章，讀懂 Netty 的高性能架構之道 Netty(二) 從線程模型的角度看 Netty 為什么是高性能的？ Netty(二) 從線程模型的角度看 Netty 為什么是高性能的？高性能TcpServer(Java) - Netty Netty之旅二：口口相傳的高性能Netty到底是什么？