網絡協議 22 - RPC 協議(下)- 二進制類 RPC 協議


    前面我們認識了兩個常用文本類的 RPC 協議,對於陌生人之間的溝通,用 NBA、CBA 這樣的縮略語,會使得協議約定非常不方便。

    在講 CDN 和 DNS 的時候,我們講過接入層的設計,對於靜態資源或者動態資源靜態化的部分都可以做緩存。但是對於下單、支付等交易場景,還是需要調用 API。

    對於微服務的架構,API 需要一個 API 網關統一的管理。API 網關有多種實現方式,用 Nginx 或者 OpenResty 結合 Lua 腳本是常用的方式。在上一節講過的 Spring Cloud 體系中,有個組件 Zuul 也是干這個的。

數據中心內部是如何相互調用的?

    API 網關用來管理 API,但是 API 的實現一般在一個叫作Controller 層的地方。這一層對外提供 API。由於是讓陌生人訪問的,我們能看到目前業界主流的,基本都是 RESTful 的 API,是面向大規模互聯網應用的。

    在 Controller 之內,就是咱們互聯網應用的業務邏輯實現。上節講 RESTful 的時候,說過業務邏輯的實現最好是無狀態的,從而可以橫向擴展,但是資源的狀態還需要服務端去維護。資源的狀態不應該維護在業務邏輯層,而是在最底層的持久化層,一般會使用分布式數據庫和 ElasticSearch。

    這些服務端的狀態,例如訂單、庫存、商品等,都是重中之重,都需要持久化到硬盤上,數據不能丟,但是由於硬盤讀寫性能差,因而持久化層往往吞吐量不能達到互聯網應用要求的吞吐量,因而前面要有一層緩存層,使用 Redis 或者 memcached 將請求攔截一道,不能讓所有的請求都進入數據庫“中軍大營”。

    緩存和持久化層之上一般是基礎服務層,這里面提供一些原子化的接口。例如,對於用戶、商品、訂單、庫存的增刪查改,將緩存和數據庫對再上層的業務邏輯屏蔽一道。有了這一層,上層業務邏輯看到的都是接口,而不會調用數據庫和緩存。因而對於緩存層的擴容,數據庫的分庫分表,所有的改變,都截止到這一層,這樣有利於將來對於緩存和數據庫的運維。

    再往上就是組合層。因為基礎服務層只是提供簡單的接口,實現簡單的業務邏輯,而復雜的業務邏輯,比如下單,要扣優惠券,扣減庫存等,就要在組合服務層實現。

    這樣,Controller 層、組合服務層、基礎服務層就會相互調用,這個調用是在數據中心內部的,量也會比較大,還是使用 RPC 的機制實現的。

    由於服務比較多,需要一個單獨的注冊中心來做服務發現。服務提供方會將自己提供哪些服務注冊到注冊中心中去,同時服務消費方訂閱這個服務,從而可以對這個服務進行調用。

    調用的時候有一個問題,這里的 RPC 調用,應該用二進制還是文本類?其實文本的最大問題是,占用字節數目比較多。比如數字 123,其實本來二進制 8 位就夠了,但是如果變成文本,就成了字符串 123。如果是 UTF-8 編碼的話,就是三個字節;如果是 UTF-16,就是六個字節。同樣的信息,要多費好多的空間,傳輸起來也更加占帶寬,時延也高。

    因而對於數據中心內部的相互調用,很多公司選型的時候,還是希望采用更加省空間和帶寬的二進制的方案。

    這里一個著名的例子就是 Dubbo 服務化框架二進制的 RPC 方式。

    Dubbo 會在客戶端的本地啟動一個 Proxy,其實就是客戶端的 Stub,對於遠程的調用都通過這個 Stub 進行封裝。

    接下來,Dubbo 會從注冊中心獲取服務端的列表,根據路由規則和負載均衡規則,在多個服務端中選擇一個最合適的服務端進行調用。

    調用服務端的時候,首先要進行編碼和序列化,形成 Dubbo 頭和序列化的方法和參數。將編碼好的數據,交給網絡客戶端進行發送,網絡服務端收到消息后,進行解碼。然后將任務分發給某個線程進行處理,在線程中會調用服務端的代碼邏輯,然后返回結果。

    這個過程和經典的 RPC 模式何其相似啊!

如何解決協議約定問題?

    接下來我們還是來看 RPC 的三大問題,其中注冊發現問題已經通過注冊中心解決了。我們下面就來看協議約定問題。

    Dubbo 中默認的 RPC 協議是 Hessian2。為了保證傳輸的效率,Hessian2 將遠程調用序列化為二進制進行傳輸,並且可以進行一定的壓縮。這個時候你可能會疑惑,同為二進制的序列化協議,Hessian2 和前面的二進制的 RPC 有什么區別呢?這不繞了一圈又回來了嗎?

    Hessian2 是解決了一些問題的。例如,原來要定義一個協議文件,然后通過這個文件生成客戶端和服務端的 Stub,才能進行相互調用,這樣使得修改就會不方便。Hessian2 不需要定義這個協議文件,而是自描述的。什么是自描述呢?

    所謂自描述就是,關於調用哪個函數,參數是什么,另一方不需要拿到某個協議文件、拿到二進制,靠它本身根據 Hessian2 的規則,就能解析出來。

    原來有協議文件的場景,有點兒像兩個人事先約定好,0 表示方法 add,然后后面會傳兩個數。服務端把兩個數加起來,這樣一方發送 012,另一方知道是將 1 和 2 加起來,但是不知道協議文件的,當它收到 012 的時候,完全不知道代表什么意思。

    而自描述的場景,就像兩個人說的每句話都帶前因后果。例如,傳遞的是“函數:add,第一個參數 1,第二個參數 2”。這樣無論誰拿到這個表述,都知道是什么意思。但是只不過都是以二進制的形式編碼的。這其實相當於綜合了 XML 和二進制共同優勢的一個協議。

    Hessian2 是如何做到這一點的呢?這就需要去看 Hessian2 的序列化的語法描述文件

    看起來很復雜,編譯原理里面是有這樣的語法規則的。

    我們從 Top 看起,下一層是 value,直到形成一棵樹。這里面的有個思想,為了防止歧義,每一個類型的起始數字都設置成為獨一無二的。這樣,解析的時候,看到這個數字,就知道后面跟的是什么了。

    這里還是以加法為例子,“add(2,3)”被序列化之后是什么樣的呢?

H x02 x00     # Hessian 2.0
C          # RPC call
 x03 add     # method "add"
 x92        # two arguments
 x92        # 2 - argument 1
 x93        # 3 - argument 2
  • H 開頭,表示使用的協議是 Hession,H 的二進制是 0x48
  • C 開頭,表示這是一個 RPC 調用
  • 0x03,表示方法名是三個字符
  • 0x92,表示有兩個參數。其實這里存的應該是 2,之所以加上 0x90,就是為了防止歧義,表示這里一定是一個 int
  • 第一個參數是 2,編碼為 0x92,第二個參數是 3,編碼為 0x93

    這個就叫作自描述

    另外,Hessian2 是面向對象的,可以傳輸一個對象。

class Car {
 String color;
 String model;
}
out.writeObject(new Car("red", "corvette"));
out.writeObject(new Car("green", "civic"));
---
C            # object definition (#0)
 x0b example.Car    # type is example.Car
 x92          # two fields
 x05 color       # color field name
 x05 model       # model field name

O            # object def (long form)
 x90          # object definition #0
 x03 red        # color field value
 x08 corvette      # model field value

x60           # object def #0 (short form)
 x05 green       # color field value
 x05 civic       # model field value

    首先,定義這個類。對於類型的定義也傳過去,因而也是自描述的。類名為 example.Car,字符長 11 位,因而前面長度為 0x0b。有兩個成員變量,一個是 color,一個是 model,字符長 5 位,因而前面長度 0x05,。

    然后,傳輸的對象引用這個類。由於類定義在位置 0,因而對象會指向這個位置 0,編碼為 0x90。后面 red 和 corvette 是兩個成員變量的值,字符長分別為 3 和 8。

    接着又傳輸一個屬於相同類的對象。這時候就不保存對於類的引用了,只保存一個 0x60,表示同上就可以了。

    可以看出,Hessian2 真的是能壓縮盡量壓縮,多一個 Byte 都不傳。

如何解決 RPC 傳輸問題?

    接下來,我們再來看 Dubbo 的 RPC 傳輸問題。前面我們也說了,基於 Socket 實現一個高性能的服務端,是很復雜的一件事情,在 Dubbo 里面,使用了 Netty 的網絡傳輸框架。

    Netty 是一個非阻塞的基於事件的網絡傳輸框架,在服務端啟動的時候,會監聽一個端口,並注冊以下的事件。

  • 連接事件:當收到客戶端的連接事件時,會調用 void connected(Channel channel) 方法
  • 可寫事件觸發時,會調用 void sent(Channel channel, Object message),服務端向客戶端返回響應數據
  • 可讀事件觸發時,會調用 void received(Channel channel, Object message) ,服務端在收到客戶端的請求數據
  • 發生異常時,會調用 void caught(Channel channel, Throwable exception)

    當事件觸發之后,服務端在這些函數中的邏輯,可以選擇直接在這個函數里面進行操作,還是將請求分發到線程池去處理。一般異步的數據讀寫都需要另外的線程池參與,在線程池中會調用真正的服務端業務代碼邏輯,返回結果。

    Hessian2 是 Dubbo 默認的 RPC 序列化方式,當然還有其他選擇。例如,Dubbox 從 Spark 那里借鑒 Kryo,實現高性能的序列化。

    到這里,我們說了數據中心里面的相互調用。為了高性能,大家都願意用二進制,但是為什么后期 Spring Cloud 又興起了呢?這是因為,並發量越來越大,已經到了微服務的階段。同原來的 SOA 不同,微服務粒度更細,模塊之間的關系更加復雜。

    在上面的架構中,如果使用二進制的方式進行序列化,雖然不用協議文件來生成 Stub,但是對於接口的定義,以及傳的對象 DTO,還是需要共享 JAR。因為只有客戶端和服務端都有這個 JAR,才能成功地序列化和反序列化。

    但當關系復雜的時候,JAR 的依賴也變得異常復雜,難以維護,而且如果在 DTO 里加一個字段,雙方的 JAR 沒有匹配好,也會導致序列化不成功,而且還有可能循環依賴。這個時候,一般有兩種選擇。

第一種,建立嚴格的項目管理流程。

  • 不允許循環調用,不允許跨層調用,只准上層調用下層,不允許下層調用上層
  • 接口要保持兼容性,不兼容的接口新添加而非改原來的,當接口通過監控,發現不用的時候,再下掉
  • 升級的時候,先升級服務提供端,再升級服務消費端。

第二種,改用 RESTful 的方式。

  • 使用 Spring Cloud,消費端和提供端不用共享 JAR,各聲明各的,只要能變成 JSON 就行,而且 JSON 也是比較靈活的
  • 使用 RESTful 的方式,性能會降低,所以需要通過橫向擴展來抵消單機的性能損耗

小結

  • RESTful API 對於接入層和 Controller 層之外的調用,已基本形成事實標准,但是隨着內部服務之間的調用越來越多,性能也越來越重要,於是 Dubbo 的 RPC 框架有了用武之地
  • Dubbo 通過注冊中心解決服務發現問題,通過 Hessian2 序列化解決協議約定的問題,通過 Netty 解決網絡傳輸的問題
  • 在更加復雜的微服務場景下,Spring Cloud 的 RESTful 方式在內部調用也會被考慮,主要是 JAR 包的依賴和管理問題


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM