服務容錯保護斷路器Hystrix之六：服務熔斷和服務降級

本文轉載自查看原文 2018-09-13 16:41 2133 springcloud/ micro-service

伴隨着微服務架構被宣傳得如火如荼，一些概念也被推到了我們面前（管你接受不接受），其實大多數概念以前就有，但很少被提的這么頻繁（現在好像不提及都不好意思交流了）。想起有人總結的一句話，微服務架構的特點就是：“一解釋就懂，一問就不知，一討論就吵架”。

其實對老外的總結能力一直特別崇拜，Kevin Kelly、Martin Fowler、Werner Vogels……，都是著名的“演講家”。正好這段時間看了些微服務、容器的相關資料，也在我們新一代產品中進行了部分實踐，回過頭來，再來談談對一些概念的理解。

一、“服務熔斷”和“服務降級”

今天先來說說“服務熔斷”和“服務降級”。為什么要說這個呢，因為我很長時間里都把這兩個概念同質化了，不知道這兩個詞大家怎么理解，一個意思or有所不同？現在的我是這么來看的：

兩個示例：

示例1：

故事的背景是這樣的：由於小強在工作中碰到一些問題，於是想請教一下業界大牛小壯。於是發生了下面的兩個場景：

小強在拿起常用手機撥號時發現該手機沒有能夠撥通，所以就拿出了備用手機撥通了某A的電話，這個過程就叫做降級（主邏輯失敗采用備用邏輯的過程）。

由於每次小壯的解釋都屬於長篇大論，不太容易理解，所以小強每次找小壯溝通的時候都希望通過常用手機來完成，因為該手機有錄音功能，這樣自己可以慢慢消化。由於上一次的溝通是用備用電話完成的，小強又碰到了一些問題，於是他又嘗試用常用電話撥打，這一次又沒有能夠撥通，所以他不得不又拿出備用手機給某A撥號，就這樣連續的經過了幾次在撥號設備選擇上的“降級”，小強覺得短期內常用手機可能因為運營商問題無法正常撥通了，所以，再之后一段時間的交流中，小強就不再嘗試用常用手機進行撥號，而是直接用備用手機進行撥號，這樣的策略就是熔斷（常用手機因短期內多次失敗，而被暫時性的忽略，不再嘗試使用）

示例2：

在股票市場，熔斷這個詞大家都不陌生，是指當股指波幅達到某個點后，交易所為控制風險采取的暫停交易措施。相應的，服務熔斷一般是指軟件系統中，由於某些原因使得服務出現了過載現象，為防止造成整個系統故障，從而采用的一種保護措施，所以很多地方把熔斷亦稱為過載保護。
大家都見過女生旅行吧，大號的旅行箱是必備物，平常走走近處綽綽有余，但一旦出個遠門，再大的箱子都白搭了，怎么辦呢？常見的情景就是把物品拿出來分分堆，比了又比，最后一些非必需品的就忍痛放下了，等到下次箱子夠用了，再帶上用一用。而服務降級，就是這么回事，整體資源快不夠了，忍痛將某些服務先關掉，待渡過難關，再開啟回來。

所以從上述分析來看，兩者其實從有些角度看是有一定的類似性的：

目的很一致，都是從可用性可靠性着想，為防止系統的整體緩慢甚至崩潰，采用的技術手段；
最終表現類似，對於兩者來說，最終讓用戶體驗到的是某些功能暫時不可達或不可用；
粒度一般都是服務級別，當然，業界也有不少更細粒度的做法，比如做到數據持久層（允許查詢，不允許增刪改）；
自治性要求很高，熔斷模式一般都是服務基於策略的自動觸發，降級雖說可人工干預，但在微服務架構下，完全靠人顯然不可能，開關預置、配置中心都是必要手段；

而兩者的區別也是明顯的：

觸發原因不太一樣，服務熔斷一般是某個服務（下游服務）故障引起，而服務降級一般是從整體負荷考慮；
管理目標的層次不太一樣，熔斷其實是一個框架級的處理，每個微服務都需要（無層級之分），而降級一般需要對業務有層級之分（比如降級一般是從最外圍服務開始）
實現方式不太一樣，這個區別后面會單獨來說；

二、熔斷器的狀態機

　　當然這只是我個人對兩者的理解，外面把兩者歸為完全一致的也不在少數，或者把熔斷機制理解為應對降級目標的一種實現也說的過去，可能“一討論就吵架”也正是這個原因吧！概念算是說完了，避免空談，我再總結下對常用的實現方法的理解。對於這兩個概念，號稱支持的框架可不少，Hystrix當屬其中的佼佼者。先說說最裸的熔斷器的設計思路，下面這張圖大家應該不陌生（我只是參考着又畫了畫），簡明扼要的給出了好的熔斷器實現的三個狀態機：

Closed：熔斷器關閉狀態，調用失敗次數積累，到了閾值（或一定比例，默認是50%）則啟動熔斷機制；
Open：熔斷器打開狀態，此時對下游的調用都內部直接返回錯誤，不走網絡，但設計了一個時鍾選項，默認的時鍾達到了一定時間（這個時間一般設置成平均故障處理時間，也就是MTTR），到了這個時間，進入半熔斷狀態；
Half-Open：半熔斷狀態，允許定量的服務請求，如果調用都成功（或一定比例）則認為恢復了，關閉熔斷器，否則認為還沒好，又回到熔斷器打開狀態；

那Hystrix，作為Netflix開源框架中的最受喜愛組件之一，是怎么處理依賴隔離，實現熔斷機制的呢，他的處理遠比我上面說個實現機制復雜的多，一起來看看核心代碼吧，我只保留了代碼片段的關鍵部分：

[java] view plain copy

public abstract class HystrixCommand<R> extends AbstractCommand<R> implements HystrixExecutable<R>, HystrixInvokableInfo<R>, HystrixObservable<R> {
protected abstract R run() throws Exception;
protected R getFallback() {
throw new UnsupportedOperationException("No fallback available.");
}
@Override
final protected Observable<R> getExecutionObservable() {
return Observable.defer(new Func0<Observable<R>>() {
@Override
public Observable<R> call() {
try {
return Observable.just(run());
} catch (Throwable ex) {
return Observable.error(ex);
}
}
});
}
@Override
final protected Observable<R> getFallbackObservable() {
return Observable.defer(new Func0<Observable<R>>() {
@Override
public Observable<R> call() {
try {
return Observable.just(getFallback());
} catch (Throwable ex) {
return Observable.error(ex);
}
}
});
}
public R execute() {
try {
return queue().get();
} catch (Exception e) {
throw decomposeException(e);
}
}

HystrixCommand是重重之重，在Hystrix的整個機制中，涉及到依賴邊界的地方，都是通過這個Command模式進行調用的，顯然，這個Command負責了核心的服務熔斷和降級的處理，子類要實現的方法主要有兩個：

run方法：實現依賴的邏輯，或者說是實現微服務之間的調用；
getFallBack方法：實現服務降級處理邏輯，只做熔斷處理的則可不實現；

使用時，可參考如下方式：

[java] view plain copy

public class TestCommand extends HystrixCommand<String> {
protected TestCommand(HystrixCommandGroupKey group) {
super(group);
}
@Override
protected String run() throws Exception {
//這里需要做實際調用邏輯
return "Hello";
}
public static void main(String[] args) throws InterruptedException, ExecutionException, TimeoutException {
TestCommand command = new TestCommand(HystrixCommandGroupKey.Factory.asKey("TestGroup"));
//1.這個是同步調用
command.execute();
//2.這個是異步調用
command.queue().get(500, TimeUnit.MILLISECONDS);
//3.異步回調
command.observe().subscribe(new Action1<String>() {
public void call(String arg0) {
}
});
}
}

細心的同學肯定發現Command機制里大量使用了Observable相關的API，這個是什么呢？原來其隸屬於RxJava，這個框架就不多介紹了 --- 響應式開發，也是Netflix的作品之一，具體大家可參考這系列博客，我覺得作者寫的很通俗：http://blog.csdn.net/lzyzsd/article/details/41833541/

接着呢，大家一定會問，那之前說的熔斷閾值設置等，都在哪塊做的呢？再來看看另一塊核心代碼：

[java] view plain copy

public abstract class HystrixPropertiesStrategy {
public HystrixCommandProperties getCommandProperties(HystrixCommandKey commandKey, HystrixCommandProperties.Setter builder) {
return new HystrixPropertiesCommandDefault(commandKey, builder);
}
......
}

這個類作為策略類，返回相關的屬性配置，大家可重新實現。而在具體的策略中，主要包括以下幾種策略屬性配置：

circuitBreakerEnabled：是否允許熔斷，默認允許；
circuitBreakerRequestVolumeThreshold：熔斷器是否開啟的閥值，也就是說單位時間超過了閥值請求數，熔斷器才開；
circuitBreakerSleepWindowInMilliseconds：熔斷器默認工作時間，超過此時間會進入半開狀態，即允許流量做嘗試；
circuitBreakerErrorThresholdPercentage：錯誤比例觸發熔斷；
......

屬性很多，這里就不一一說明了，大家可參考HystrixCommandProperties類里的詳細定義。還有一點要着重說明的，在熔斷器的設計里，隔離采用了線程的方式（據說還有信號的方式，這兩個區別我還沒搞太明白），處理依賴並發和阻塞擴展，示意圖如下：

如上圖，好處也很明顯，對於每個依賴都有獨立可控的線程池，當然高並發時，CPU切換較多，有一定的影響。

啰嗦了一堆，最后總結一下，我認為服務熔斷和服務降級兩者是有區別的，同時通過對Hystrix的簡單學習，了解了其實現機制，會逐步引入到我們的產品研發中。當然還有好多概念：服務限流、分流，請求與依賴分離等，后面有時間一一與大家分享。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 服務容錯保護斷路器Hystrix之四：斷路器監控(Hystrix Dashboard)-turbine集群監控服務容錯保護斷路器Hystrix之三：斷路器監控(Hystrix Dashboard)-單體監控服務熔斷（過載保護、斷路保護）和服務降級服務容錯保護斷路器Hystrix之二：Hystrix工作流程解析服務容錯保護斷路器Hystrix之八：Hystrix資源隔離策略 spring cloud 入門系列四：使用Hystrix 實現斷路器進行服務容錯保護服務容錯保護斷路器Hystrix之一：入門示例介紹（springcloud引入Hystrix的兩種方式） hystrix服務降級和服務熔斷的區別 Hystrix的服務熔斷和服務降級 Feign + Hystrix 服務熔斷和服務降級