Redis性能為什么這么好?IO多路復用模型了解下


 

Redis性能為什么這么好?IO多路復用模型從底層了解下

前言

當我們去面試的時候,問到了 redis,nginx,netty他們的底層模型分別是什么?

redis -> epoll

nginx -> epoll

netty -> epoll

需要從操作系統的層面上來談

BIO

當我們開機的時候,首先被加載進內存的是我們的Kernel(內核),內核是用於管理我們的硬件的,同時內核還會創建一個GDT表,然后划分兩個空間(用戶空間和內核空間),同時空間中的內容是開啟了保護模式,無法被修改的。

同時還有一個CPU的概念,CPU有自己的指令集,並且指令集是分了幾個級別的,分別是從0~3的,Kernel屬於0級別。APP只能用級別為3的指令集。

從上面我們可以知道,我們的應用程序是無法直接訪問我們的Kernel的,也就是程序不能直接訪問我們的磁盤,聲卡,網卡等設備,只有內核才可以訪問,那我們怎么辦?

只有APP通過調用Kernel提供的 syscall(系統軟中斷和硬中斷)來獲取硬件中的內容。

  • 軟中斷
  • 硬中斷:硬中斷指的是我們的鍵盤,按下一個按鍵的時候,就會觸發我們的硬中斷,也就是內核會有一個中斷號,然后得到一個callback的回調函數

說到這里,其實就是為了引出一個 概念,就是 IO 和 內核之間的成本問題

Redis性能為什么這么好?IO多路復用模型了解下
/**
 * 服務器讀取文件
 */
public class TestSocket {
    public static void main(String[] args) throws IOException {
        ServerSocket server = new ServerSocket(8090);
        System.out.println("step1: new ServerSocket(8090)");
        while(true) {
            Socket client = server.accept();
            System.out.println("step2: client " + client.getPort());
            new Thread(() -> {
                try {
                    InputStream in = client.getInputStream();
                    BufferedReader reader = new BufferedReader(new InputStreamReader(in));
                    while(true) {
                        System.out.println(reader.readLine());
                    }
                } catch (IOException e) {
                    e.printStackTrace();
                }
            }, "t1").start();
        }
    }
}

抓取程序對內核有沒有系統調用,然后輸出

strace -ff -o ./ooxx java TestSocket

然后我們執行上面的程序,得到我們的結果

Redis性能為什么這么好?IO多路復用模型了解下

然后我們在通過jps命令,查看當前TestSocket的進程號

jps

2912 Jps
2878 TestSocket

然后我們在進入下面的這個目錄下,啟動2878是線程的id號,這個目錄就是存放該線程的一些信息

cd /proc/2878

我們可以看到2878進程下的,通過查看task目錄,可以看到所有線程數

Redis性能為什么這么好?IO多路復用模型了解下

還有一個目錄,就是 fd目錄,在該目錄下,就是我們的一些IO流

Redis性能為什么這么好?IO多路復用模型了解下

上面的0,1,2,分別對應着 輸入流,輸出流和錯誤流。在java里面我們流就是對象,而在linux系統中,流就是一個個的文件。后面的4,5 就對應着我們的socket通信,分別對應着ipv4 和 ipv6

Redis性能為什么這么好?IO多路復用模型了解下

通過netstat命令查看

Redis性能為什么這么好?IO多路復用模型了解下

然后我們使用nc連接 8090端口

nc localhost 8090

我們執行完后,通過netstat命令查看 ,發現多了個連接的狀態

Redis性能為什么這么好?IO多路復用模型了解下

然后在看文件里面,也多了一個socket

Redis性能為什么這么好?IO多路復用模型了解下

我們查看系統調用,發現通過系統調用接收了一個58181端口號的請求,在前面我們還能夠看到5,這個5其實就是對應的上圖里面的socket,走的是ipv4。

Redis性能為什么這么好?IO多路復用模型了解下

從這里其實我們就可以知道了,我們原來調用中寫的代碼

Socket client = server.accept();

對應到系統層面,也是調用了系統的方法。

同時關於系統調用,有以下幾種方式

  • bind
  • connect
  • listen
  • select
  • socket

首先我們需要知道,java其實是一種解釋型語言,通過JVM 虛擬機將我們的.java文件轉換為字節碼文件,然后調用我們os中的syscall方法,我們必須明確的是,無論怎么調用,一定最后要通過調用內核的方法,然后調用我們的硬件。

Redis性能為什么這么好?IO多路復用模型了解下

上述的模型,就是BIO的通信,是這里面有很多阻塞,我們只能夠通過多個線程來避免主線程的阻塞。

但是從上面我們可以知道,如果有大量的連接過來,那服務器需要創建很多個線程與之對應,並且線程的創建也是需要消耗資源的,因為線程使用的棧是獨占的(棧大小默認1MB),同時CPU的資源調度也是需要浪費。

最根本的原因就是因為 BIO是阻塞的,才會造成上面的問題。

NIO

因為BIO存在線程阻塞的問題,后面就提出了NIO的概念,在NIO中,有C10K的問題,C10K = 10000個客戶端。但是在和你連接的服務器中,其實沒有多少給你發送數據了,所以我們需要做的就是,每當有人發送消息的時候,我才和它進行連接。

Redis性能為什么這么好?IO多路復用模型了解下

也就是每次都需要遍歷10000個客戶端,是非常耗費時間呢,因為很多客戶端可能就沒有請求的發送。

多路復用

這個時候,我們就不需要遍歷10K個客戶端了,而是把我們的fds文件發送給內核,然后內核去判斷最后需要連接誒的客戶端,這樣就不用遍歷全部的了。所以這里的Select就是多路復用器,通過多路復用返回的是狀態,然后我們需要程序去判斷這些狀態。

說白了,就是通過一個多路復用器,來判斷哪些路可以走通,然后不需要輪詢全部的。

Redis性能為什么這么好?IO多路復用模型了解下

這個模型,是通過select,將fds文件交給內核來做了,也就是內核需要完成10K個文件的主動遍歷,這個10K個調用,對比之前的10K次系統調用來說,是更省時間的,存在以下的問題

  • 每次傳遞很多數據(重復勞動)
  • 然后內核需要主動去遍歷( 復雜度O(N) )

解決方法,通過在內核中,開辟一個空間,當每次來一個客戶端,就把這個文件丟到內核中,這樣不需要每次把10K個文件傳遞到內核了。

然后在使用一個基於事件驅動的模型,如下圖所示就是一個異步事件驅動的流程

Redis性能為什么這么好?IO多路復用模型了解下

同樣使用epoll,Redis是輪詢,Nginx是阻塞?

我們通過strace命令,查看nginx 和 redis的運行流程,能夠發現 同樣是使用了 epoll,但是nginx是阻塞的,而redis它是輪詢(非阻塞)的。

首先那是因為Redis只有一個線程,而這個線程要做很多事情,例如 接收客戶端,LRU,LFU(淘汰過濾)、RDB/AOF(fork線程進行數據備份)。

也就是說對於Redis中的C10K問題,redis也是通過epoll的事件驅動來進行處理的,也就是通過epoll將每個需要讀取的客戶端的操作放在一個原子串行化的隊列中,並且一個客戶端包含以下的幾個操作:read、計算、write等

Redis性能為什么這么好?IO多路復用模型了解下

在redis 6.X版本中,還有一個IO threads的概念,首先它為了留住串行化原子性的特點,也就是計算的時候還是串行化的處理,但是在讀取數據的時候,使用的是多線程進行並發IO讀取

為什么要多線程讀呢?首先因為讀操作需要發生CPU的系統調用,如果通過多個線程讀取,能夠充分發揮CPU的多核作用

Redis性能為什么這么好?IO多路復用模型了解下

而nginx只需要做一件事,就是等着客戶端過來,不需要做其他的事情,所以也就設置成阻塞。

零拷貝

用kafka來講,首先這里面有兩個角色,一個是消息生產者,一個是消息消費者

Redis性能為什么這么好?IO多路復用模型了解下

也就是說,我們通過開辟了一個內存空間,能夠直接抵達磁盤,能夠減少kernel的系統調用。

在讀取的時候,如果是原來的做法,就需要首先請求kernel,然后kernel發起一個read請求,讀取磁盤的文件到內核中,然后kafka在讀取kernel中的信息。

那么什么是零拷貝呢?零拷貝就是不發生拷貝的情況,零拷貝的前提就是數據不需要加工,在JVM中有一個RandomAccessFile,它能夠直接開辟一個堆內空間,或者堆外空間。

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM