io_uring只適用於存儲IO?大錯特錯!


傳統高性能網絡編程通常是基於select, epoll, kequeue等機制實現,網絡上有非常多的資料介紹基於這幾種接口的編程模型,尤其是epoll,nginx, redis等都基於其構建,穩定高效,但隨着linux kernel主線在v5.1版本引入io_uring新異步編程框架,在高並發網絡編程方面我們多了一個利器。

io_uring只適用於存儲IO?大錯特錯!io_uring只適用於存儲IO?大錯特錯!

1. 概述

傳統高性能網絡編程通常是基於select, epoll, kequeue等機制實現,網絡上有非常多的資料介紹基於這幾種接口的編程模型,尤其是epoll,nginx, redis等都基於其構建,穩定高效,但隨着linux kernel主線在v5.1版本引入io_uring新異步編程框架,在高並發網絡編程方面我們多了一個利器。

io_uring在進行初始設計時就充分考慮其框架自身的高性能和通用性,不僅僅面向傳統基於塊設備的fs/io領域,對網絡異步編程也提供支持,其最終目的是實現linux下一切基於文件概念的異步編程。

2. echo_server場景下的性能對比

我們先看下io_uring和epoll在echo_server模型下的性能對比,測試環境為:

1. server端cpu Intel(R) Xeon(R) CPU E5-2682 v4 @ 2.50GHz, client端cpu Intel(R) Xeon(R) CPU E5-2630 0 @ 2.30GHz

2. 兩台物理機器,一台做server, 一台做client。

Note: 如下性能數據都是在meltdown和spectre漏洞修復場景下測試。

io_uring只適用於存儲IO?大錯特錯!io_uring只適用於存儲IO?大錯特錯!

上圖是io_uring和epoll在echo_server場景下qps數據對比,可以看出在筆者的測試環境中,連接數1000及以上時,io_uring的性能優勢開始體現,io_uring的極限性能單core在24萬qps左右,而epoll單core只能達到20萬qps左右,收益在20%左右。

io_uring只適用於存儲IO?大錯特錯!io_uring只適用於存儲IO?大錯特錯!

上圖統計的是io_uring和epoll在echo_server場景下系統調用上下文切換數量的對比,可以看出io_uring可以極大的減少用戶態到內核態的切換次數,在連接數超過300時,io_uring用戶態到內核態的切換次數基本可以忽略不計。

3. epoll 網絡編程模型

下面展開介紹epoll和io_uring兩種編程模型基本用法對比,首先介紹下傳統的epoll網絡編程模型, 通常采用如下模式:

struct epoll_event ev; 
 
/* for accept(2) */ 
ev.events = EPOLLIN; 
ev.data.fd = sock_listen_fd; 
epoll_ctl(epollfd, EPOLL_CTL_ADD, sock_listen_fd, &ev); 
 
/* for recv(2) */ 
ev.events = EPOLLIN | EPOLLET; 
ev.data.fd = sock_conn_fd; 
epoll_ctl(epollfd, EPOLL_CTL_ADD, sock_conn_fd, &ev); 
 
然后在一個主循環中: 
new_events = epoll_wait(epollfd, events, MAX_EVENTS, -1); 
for (i = 0; i < new_events; ++i) { 
    /* process every events */ 
    ... 
} 

本質上是實現類似如下事件驅動結構:

struct event { 
    int fd; 
    handler_t handler; 
};

將fd通過epoll_ctl進行注冊,當該fd上有事件ready, 在epoll_wait返回時可以獲知完成的事件,然后依次調用每個事件的handler, 每個handler里調用recv(2), send(2)等進行消息收發。

4. io_uring 網絡編程模型

io_uring的網絡編程模型不同於epoll, 以recv(2)為例,它不需要通過epoll_ctl進行文件句柄的注冊,io_uring首先在用戶態用sqe結構描述一個io 請求,比如此處的recv(2)系統調用,然后就可以通過io_uring_enter(2)系統調用提交該recv(2)請求,用戶程序通過調用io_uring_submit_and_wait(3),類似於epoll_wait(2),獲得完成的io請求,cqe結構用於描述完成的ioq請求。

/* 用sqe對一次recv操作進行描述 */ 
struct io_uring_sqe *sqe = io_uring_get_sqe(ring); 
io_uring_prep_recv(sqe, fd, bufs[fd], size, 0); 
 
/* 提交該sqe, 也就是提交recv操作 */ 
io_uring_submit(&ring); 
 
/* 等待完成的事件 */ 
io_uring_submit_and_wait(&ring, 1); 
cqe_count = io_uring_peek_batch_cqe(&ring, cqes, sizeof(cqes) / sizeof(cqes[0]));    
for (i = 0; i < cqe_count; ++i) { 
    struct io_uring_cqe *cqe = cqes[i]; 
    /* 依次處理reap每一個io請求,然后可以調用請求對應的handler */ 
    ... 
} 

總結下:為什么io_uring相比epoll模型能極大的減少用戶態到內核態的上下文切換?舉個簡單例子,epoll_wait返回1000個事件,則用戶態程序需要發起1000個系統調用,則就是1000個用戶態和內核態切換,而io_uring可以初始化1000個io請求的sqes, 然后調用一次io_uring_enter(2)系統調用就可以下發這1000個請求。

在meltdown和spectre漏洞沒有修復的場景下,io_uring相比於epoll的提升幾乎無,甚至略有下降,why? 我們不是減少了大量的用戶態到內核態的上下文切換?

原因是在meldown和spectre漏洞沒有修復的場景下,用戶態到內核態的切換開銷很小,所帶來的的收益不足以抵消io_uring框架自身的開銷,這也說明io_uirng框架本身需要進一步的優化。

詳細的epoll和io_uring基於echo_server模型的對比程序在 :https://github.com/OpenAnolis/io_uring-echo-server(詳見原文鏈接)。

5. 接下來的工作

1.目前從分析來看,io_uring框架本身存在的overhead不容小覷,需要進一步優化,我們已經在io_uring社區進行io_uring框架開銷不斷增大的討論,並已經開展了一系列的優化嘗試。

2.echo_server代表着一類編程模型,不是真實的應用,但redis, nginx等應用其實都是基於echo_server模型,將其用io_uirng來改造,理論上在cpu 漏洞修復場景下都會帶來明顯性能提升,我們已經在開展nginx, redis的io_uring適配工作,后續會有進一步的介紹。

本文地址:https://www.linuxprobe.com/io-uring-storage.html


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM