【原創】一文講透Dubbo負載均衡之最小活躍數算法


本文是對於Dubbo負載均衡策略之一的最小活躍數算法的詳細分析。文中所示源碼,沒有特別標注的地方均為2.6.0版本。

為什么沒有用截止目前的最新的版本號2.7.4.1呢?因為2.6.0這個版本里面有兩個bug。從bug講起來,印象更加深刻。

最后會對2.6.0/2.6.5/2.7.4.1版本進行對比,通過對比學習,加深印象。

本文目錄

第一節:Demo准備。

本小節主要是為了演示方便,搭建了一個Demo服務。Demo中啟動三個服務端,負載均衡策略均是最小活躍數,權重各不相同。

第二節:斷點打在哪?

本小節主要是分享我看源碼的方式。以及我們看源碼時斷點如何設置,怎么避免在源碼里面"瞎逛"。

第三節:模擬環境。

本小節主要是基於Demo的改造,模擬真實環境。在此過程中發現了問題,引申出下一小節。

第四節:active為什么是0?

本小節主要介紹了RpcStatus類中的active字段在最小活躍數算法中所承擔的作用,以及其什么時候發生變化。讓讀者明白為什么需要在customer端配置ActiveLimitFilter攔截器。

第五節:剖析源碼

本小節對於最小活躍數算法的實現類進行了逐行代碼的解讀,基本上在每一行代碼上加入了注釋。屬於全文重點部分。

第六節:Bug在哪里?

逐行解讀完源碼后,引出了2.6.0版本最小活躍數算法的兩個Bug。並通過2.6.0/2.6.5/2.7.4.1三個版本的異同點進行交叉對比,加深讀者印象。

第七節:意外收獲

看官方文檔的時候發現了一處小小的筆誤,我對其進行了修改並被merged。主要是介紹給開源項目貢獻代碼的流程。

PS:前一到三節主要是分享我看源碼的一點思路和技巧,如果你不感興趣可以直接從第四節開始看起。本文的重點是第四到第六節。

另:閱讀本文需要對Dubbo有一定的了解。

一.Demo准備

我看源碼的習慣是先搞個Demo把調試環境搭起來。然后帶着疑問去抽絲剝繭的Debug,不放過在這個過程中在腦海里面一閃而過的任何疑問。

這篇文章分享的是Dubbo負載均衡策略之一最小活躍數(LeastActiveLoadBalance)。所以我先搭建一個Dubbo的項目,並啟動三個provider供consumer調用。

三個provider的loadbalance均配置的是leastactive。權重分別是默認權重、200、300。

默認權重是多少?后面看源碼的時候,源碼會告訴你。

三個不同的服務提供者會給調用方返回自己是什么權重的服務。

啟動三個實例。(注:上面的provider.xml和DemoServiceImpl其實只有一個,每次啟動的時候手動修改端口、權重即可。)

到zookeeper上檢查一下,服務提供者是否正常:

可以看到三個服務提供者分別在20880、20881、20882端口。(每個紅框的最后5個數字就是端口號)。

最后,我們再看服務消費者。消費者很簡單,配置consumer.xml

直接調用接口並打印返回值即可。

二.斷點打在哪?

相信很多朋友也很想看源碼,但是不知道從何處下手。處於一種在源碼里面"亂逛"的狀態,一圈逛下來,收獲並不大。

這一小節我想分享一下我是怎么去看源碼。首先我會帶着問題去源碼里面尋找答案,即有針對性的看源碼。

如果是這種框架類的,正如上面寫的,我會先搭建一個簡單的Demo項目,然后Debug跟進去看。Debug的時候當然需要是設置斷點的,那么這個斷點如何設置呢?

第一個斷點,當然毋庸置疑,是打在調用方法的地方,比如本文中,第一個斷點是在這個地方:

接下里怎么辦?

你當然可以從第一個斷點處,一步一步的跟進去。但是在這個過程中,你發現了嗎?大多數情況你都是被源碼牽着鼻子走的。本來你就只帶着一個問題去看源碼的,有可能你Debug了十分鍾,還沒找到關鍵的代碼。也有可能你Debug了十分鍾,問題從一個變成了無數個。

那么我們怎么避免被源碼牽着四處亂逛呢?我們得找到一個突破口,還記得我在《很開心,在使用mybatis的過程中我踩到一個坑》這篇文章中提到的逆向排查的方法嗎?這次的文章,我再次展示一下該方法。

看源碼之前,我們得冷靜的分析。目標要十分明確,就是想要找到Dubbo最小活躍數算法的具體實現類以及實現類的具體邏輯是什么。根據我們的provider.xml里面的:

很明顯,我們知道loadbalance是關鍵字。所以我們拿着loadbalance全局搜索,可以看到dubbo包下面的LoadBalance。

這是一個SPI接口com.alibaba.dubbo.rpc.cluster.LoadBalance:

其實現類為:

com.alibaba.dubbo.rpc.cluster.loadbalance.AbstractLoadBalance

AbstractLoadBalance是一個抽象類,該類里面有一個抽象方法doSelect。這個抽象方法其中的一個實現類就是我們要分析的最少活躍次數負載均衡的源碼。

同時,到這里。我們知道了LoadBalance是一個SPI接口,說明我們可以擴展自己的負載均衡策略。抽象方法doSelect有四個實現類。這個四個實現類,就是Dubbo官方提供的負載均衡策略,他們分別是:

ConsistentHashLoadBalance 一致性哈希算法

LeastActiveLoadBalance 最小活躍數算法

RandomLoadBalance 加權隨機算法

RoundRobinLoadBalance 加權輪詢算法

我們已經找到了LeastActiveLoadBalance這個類了,那么我們的第二個斷點打在哪里已經很明確了。

目前看來,兩個斷點就可以支撐我們的分析了。

有的朋友可能想問,那我想知道Dubbo是怎么識別出我們想要的是最少活躍次數算法,而不是其他的算法呢?其他的算法是怎么實現的呢?從第一個斷點到第二個斷點直接有着怎樣的調用鏈呢?

在沒有徹底搞清楚最少活躍數算法之前,這些統統先記錄在案但不予理睬。一定要明確目標,帶着一個問題進來,就先把帶來的問題解決了。之后再去解決在這個過程中碰到的其他問題。在這樣環環相扣解決問題的過程中,你就慢慢的把握了源碼的精髓。這是我個人的一點看源碼的心得。供諸君參考。

三.模擬環境

既然叫做最小活躍數策略。那我們得讓現有的三個消費者都有一些調用次數。所以我們得改造一下服務提供者和消費者。

服務提供者端的改造如下:

PS:這里以權重為300的服務端為例。另外的兩個服務端改造點相同。

客戶端的改造點如下:

一共發送21個請求:其中前20個先發到服務端讓其hold住(因為服務端有sleep),最后一個請求就是我們需要Debug跟蹤的請求。

運行一下,讓程序停在斷點的地方,然后看看控制台的輸出:

權重為300的服務端共計收到9個請求

權重為200的服務端共計收到6個請求

默認權重的服務端共計收到5個請求

我們還有一個請求在Debug。直接進入到我們的第二個斷點的位置,並Debug到下圖所示的一行代碼(可以點看查看大圖):

正如上面這圖所說的:weight=100回答了一個問題,active=0提出的一個問題。

weight=100回答了什么問題呢?

默認權重是多少?是100。

我們服務端的活躍數分別應該是下面這樣的

權重為300的服務端,active=9

權重為200的服務端,active=6

默認權重(100)的服務端,active=5

但是這里為什么active會等於0呢?這是一個問題。

繼續往下Debug你會發現,每一個服務端的active都是0。所以相比之下沒有一個invoker有最小active。於是程序走到了根據權重選擇invoker的邏輯中。

四.active為什么是0?

active為0說明在dubbo調用的過程中active並沒有發生變化。那active為什么是0,其實就是在問active什么時候發生變化?

要回答這個問題我們得知道active是在哪里定義的,因為在其定義的地方,必有其修改的方法。

下面這圖說明了active是定義在RpcStatus類里面的一個類型為AtomicInteger的成員變量。

在RpcStatus類中,有三處()調用active值的方法,一個增加、一個減少、一個獲取:

很明顯,我們需要看的是第一個,在哪里增加。

所以我們找到了beginCount(URL,String)方法,該方法只有兩個Filter調用。ActiveLimitFilter,見名知意,這就是我們要找的東西。

com.alibaba.dubbo.rpc.filter.ActiveLimitFilter具體如下:

看到這里,我們就知道怎么去回答這個問題了:為什么active是0呢?因為在客戶端沒有配置ActiveLimitFilter。所以,ActiveLimitFilter沒有生效,導致active沒有發生變化。

怎么讓其生效呢?已經呼之欲出了。

好了,再來試驗一次:

加上Filter之后,我們通過Debug可以看到,對應權重的活躍數就和我們預期的是一致的了。

權重為300的活躍數為6

權重為200的活躍數為11

默認權重(100)的活躍數為3

根據活躍數我們可以分析出來,最后我們Debug住的這個請求,一定會選擇默認權重的invoker去執行,因為他是當前活躍數最小的invoker。如下所示:

雖然到這里我們還沒開始進行源碼的分析,只是把流程梳理清楚了。但是把Demo完整的搭建了起來,而且知道了最少活躍數負載均衡算法必須配合ActiveLimitFilter使用,位於RpcStatus類的active字段才會起作用,否則,它就是一個基於權重的算法。

比起其他地方直接告訴你,要配置ActiveLimitFilter才行哦,我們自己實驗得出的結論,能讓我們的印象更加深刻。

我們再仔細看一下加上ActiveLimitFilter之后的各個服務的活躍數情況:

權重為300的活躍數為6

權重為200的活躍數為11

默認權重(100)的活躍數為3

你不覺得奇怪嗎,為什么權重為200的活躍數是最高的?

其在業務上的含義是:我們有三台性能各異的服務器,A服務器性能最好,所以權重為300,B服務器性能中等,所以權重為200,C服務器性能最差,所以權重為100。

當我們選擇最小活躍次數的負載均衡算法時,我們期望的是性能最好的A服務器承擔更多的請求,而真實的情況是性能中等的B服務器承擔的請求更多。這與我們的設定相悖。

如果你說20個請求數據量太少,可能是巧合,不足以說明問題。說明你還沒被我帶偏,我們不能基於巧合編程。

所以為了驗證這個地方確實有問題,我把請求擴大到一萬個。

同時,記得擴大provider端的Dubbo線程池:

由於每個服務端運行的代碼都是一樣的,所以我們期望的結果應該是權重最高的承擔更多的請求。但是最終的結果如圖所示:

各個服務器均攤了請求。這就是我文章最開始的時候說的Dubbo 2.6.0版本中最小活躍數負載均衡算法的Bug之一

接下來,我們帶着這個問題,去分析源碼。

五.剖析源碼

com.alibaba.dubbo.rpc.cluster.loadbalance.LeastActiveLoadBalance的源碼如下,我逐行進行了解讀。可以點開查看大圖,細細品讀,非常爽:

下圖中紅框框起來的部分就是一個基於權重選擇invoker的邏輯:

我給大家畫圖分析一下:

請仔細分析圖中給出的舉例說明。同時,上面這圖也是按照比例畫的,可以直觀的看到,對於某一個請求,區間(權重)越大的服務器,就越可能會承擔這個請求。所以,當請求足夠多的時候,各個服務器承擔的請求數,應該就是區間,即權重的比值。

其中第81行有調用getWeight方法,位於抽象類AbstractLoadBalance中,也需要進行重點解讀的代碼。

com.alibaba.dubbo.rpc.cluster.loadbalance.AbstractLoadBalance的源碼如下,我也進行了大量的備注:

在AbstractLoadBalance類中提到了一個預熱的概念。官網中是這樣的介紹該功能的:

權重的計算過程主要用於保證當服務運行時長小於服務預熱時間時,對服務進行降權,避免讓服務在啟動之初就處於高負載狀態。服務預熱是一個優化手段,與此類似的還有 JVM 預熱。主要目的是讓服務啟動后“低功率”運行一段時間,使其效率慢慢提升至最佳狀態。

從上圖代碼里面的公式(演變后):計算后的權重=(uptime/warmup)*weight可以看出:隨着服務啟動時間的增加(uptime),計算后的權重會越來越接近weight。從實際場景的角度來看,隨着服務啟動時間的增加,服務承擔的流量會慢慢上升,沒有一個陡升的過程。所以這是一個優化手段。同時Dubbo接口還支持延遲暴露。

在仔細的看完上面的源碼解析圖后,配合官網的總結加上我的靈魂畫作,相信你可以對最小活躍數負載均衡算法有一個比較深入的理解:

1.遍歷 invokers 列表,尋找活躍數最小的 Invoker

2.如果有多個 Invoker 具有相同的最小活躍數,此時記錄下這些 Invoker 在 invokers 集合中的下標,並累加它們的權重,比較它們的權重值是否相等

3.如果只有一個 Invoker 具有最小的活躍數,此時直接返回該 Invoker 即可

4.如果有多個 Invoker 具有最小活躍數,且它們的權重不相等,此時處理方式和 RandomLoadBalance 一致

5.如果有多個 Invoker 具有最小活躍數,但它們的權重相等,此時隨機返回一個即可

所以我覺得最小活躍數負載均衡的全稱應該叫做:有最小活躍數用最小活躍數,沒有最小活躍數根據權重選擇,權重一樣則隨機返回的負載均衡算法。

六.BUG在哪里

Dubbo2.6.0最小活躍數算法Bug一

問題出在標號為①和②這兩行代碼中:

標號為①的代碼在url中取出的是沒有經過getWeight方法降權處理的權重值,這個值會被累加到權重總和(totalWeight)中。

標號為②的代碼取的是經過getWeight方法處理后的權重值。

取值的差異會導致一個問題,標號為②的代碼的左邊,offsetWeight是一個在[0,totalWeight)范圍內的隨機數,右邊是經過getWeight方法降權后的權重。所以在經過leastCount次的循環減法后,offsetWeight在服務啟動時間還沒到熱啟動設置(默認10分鍾)的這段時間內,極大可能仍然大於0。導致不會進入到標號為④的代碼中。直接到標號為⑤的代碼處,變成了隨機調用策略。這與設計不符,所以是個bug。

前面章節說的情況就是這個Bug導致的。

這個Bug對應的issues地址和pull request分為:

https://github.com/apache/dubbo/issues/904

https://github.com/apache/dubbo/pull/2172

那怎么修復的呢?我們直接對比Dubbo 2.7.4.1(目前最新版本)的代碼:

可以看到獲取weight的方法變了:從url中直接獲取變成了通過getWeight方法獲取。獲取到的變量名稱也變了:從weight變成了afterWarmup,更加的見名知意。

還有一處變化是獲取隨機值的方法的變化,從Randmo變成了ThreadLoaclRandom,性能得到了提升。這處變化就不展開講了,有興趣的朋友可以去了解一下。

Dubbo2.6.0最小活躍數算法Bug二

這個Bug我沒有遇到,但是我在官方文檔上看了其描述(官方文檔中的版本是2.6.4),引用如下:

官網上說這個問題在2.6.5版本進行修復。我對比了2.6.0/2.6.5/2.7.4.1三個版本,發現每個版本都略有不同。如下所示:

圖中標記為①的三處代碼:

2.6.0版本的是有Bug的代碼,原因在上面說過了。

2.6.5版本的修復方式是獲取隨機數的時候加一,所以取值范圍就從[0,totalWeight)變成了[0,totalWeight],這樣就可以避免這個問題。

2.7.4.1版本的取值范圍還是[0,totalWeight),但是它的修復方法體現在了標記為②的代碼處。2.6.0/2.6.5版本標記為②的地方都是if(offsetWeight<=0),而2.7.4.1版本變成了if(offsetWeight<0)

你品一品,是不是效果是一樣的,但是更加優雅了。

朋友們,魔鬼,都在細節里啊!

七.意外收獲

在看官網文檔負載均衡介紹的時候。發現了一處筆誤。所以我對其進行了修改並被merged。

可以看到,改動點也是一個非常小的地方。但是,我也為Dubbo社區貢獻了一份自己的力量。我是Dubbo文檔的committer,簡稱"Dubbo committer"。

本小節主要是簡單的介紹一下給開源項目提pr的流程。

首先,fork項目到自己的倉庫中。然后執行以下命令,拉取項目並設置源:

git clone https://github.com/thisiswanghy/dubbo-website.git

cd dubbo-website

git remote add upstream https://github.com/apache/dubbo-website.git

git remote set-url --push upstream no_push

創建本地分支:

git checkout -b xxxx

開發完成后提交代碼:

git fetch upstream

git checkout master

git merge upstream/master

git checkout -b xxxx

git rebase master

git push origin xxxx:xxxx

然后到git上創建pull request后,靜候通知。

最后說一句

之前也寫過Dubbo的文章《Dubbo 2.7新特性之異步化改造》,通過對比Dubbo2.6.0/2.7.0/2.7.3版本的源碼,分析Dubbo2.7 異步化的改造的細節,可以看看哦。

才疏學淺,難免會有紕漏,如果你發現了錯誤的地方,還請你留言給我指出來,我對其加以修改。

如果你覺得文章還不錯,你的轉發、分享、贊賞、點贊、留言就是對我最大的鼓勵。

感謝您的閱讀十分歡迎並感謝您的關注。

以上。

再推銷一下我公眾號:對於寫文章,其實想到寫什么內容並不難,難的是你對內容的把控。關於技術性的語言,我是反復推敲,查閱大量文章來進行證偽,總之慎言慎言再慎言,畢竟做技術,我認為是一件非常嚴謹的事情,我常常想象自己就是在故宮修文物的工匠,在工匠精神的認知上,目前我可能和他們還差的有點遠,但是我時常以工匠精神要求自己。就像我之前表達的:對於技術文章(因為我偶爾也會荒腔走板的聊一聊生活,寫一寫書評,影評),我盡量保證周推,全力保證質量。堅持輸出原創。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM