桔妹導讀:隨着雲規模不斷擴大以及業務層面對延遲、帶寬的要求越來越高,采用DPDK 加速網絡報文處理的方式在橫向縱向擴展都出現了局限性。可編程芯片成為業界熱點。本文主要講述了可編程網卡芯片在滴滴雲網絡中的應用實踐,遇到的問題、帶來的收益以及開源社區貢獻。
1. 數據中心面臨的問題
隨着滴滴雲規模的不斷擴大,業務層面對延遲以及帶寬的要求越來越高。2018年滴滴雲網絡團隊上線了基於開源社區的OVS-DPDK方案。DPDK是X86平台報文快速處理的庫和驅動的集合, 其主要優勢為通過Bypass Linux內核,Hugepage內存以及PMD(Poll Mode Driver)模型驅動的方式實現加速。我們為OVS-DPDK提供了在線熱升級功能,該功能保證了在升級過程中虛擬機業務無感知,並且網絡Downtime時間為毫秒級別。同時我們優化了OVS-DPDK數據轉發平面。實現了不同物理主機上的虛擬機網絡延遲<150us,單核性能約~400w pps(雙向)。
滴滴內部上雲、高性能計算HPC,以及機器學習,對網絡提出了更高的要求。通過CPU DPDK處理報文的方式,雖然在性能以及延遲方面遠優於基於Linux 內核的轉發實現。但CPU DPDK已經不能滿足數據中心流量激增帶來的需求。
2. 技術方案選擇
雲網絡環境中,在計算節點DPDK不會占用過多的CPU,否則會影響CPU售賣,一般會使用1-2 CPU用於數據報文處理。同時DPDK 處理數據報文的性能強依賴CPU算力。因此在計算節點網絡的橫向擴展以及縱向擴展都具有局限性。
在邊際網關節點,我們可以通過擴展服務器的方式,提高網絡處理容量進而滿足業務需求。但是大規模的擴展服務器,需要承擔更多的機器、功耗以及運維成本。
軟件定義網絡(Software Defined Network,SDN)是一種新型網絡創新架構,是網絡虛擬化的一種實現方式。其核心思想是將網絡設備的控制面與數據面分離開來。控制層面可以通過集中控制的方式實現不同的業務邏輯:拓撲發現,路由管理,安全策略,網絡虛擬化等。數據平面更專注在數據報文轉發。2018年AWS re:Invent,AWS 介紹了Nitro System。該系統通過硬件芯片加速虛擬機IO處理(網絡、存儲、安全等)。
目前工業界,加速網絡處理的焦點聚集到了硬件層面:AISC,FPGA,P4,可編程網卡,以及智能網卡等。
3. 基於可編程芯片的解決方案
3.1 硬件芯片選擇
-
傳統AISC卡
該卡比較成熟,但業務邏輯固定,很難適應雲上復雜的業務場景。 -
可編程門隊列FPGA
FPGA 實現網絡加速需要專業FPGA技術人員,以及專業網絡RD。同時在成本,和研發周期都需要具有一定的局限性。 -
P4
P4 具有靈活的可編程性,較為合適做為網關節點數據處理。並不適合在計算節點使用。同時價格也是需要考慮的因素。
-
可編程網卡芯片
通過調研發現,可編程網卡除了具有通用網卡的功能外,還可以通過下發流表規則的方式,實現報文匹配並對報文執行特定的action如:修改,封裝,以及轉發、上送報文至CPU等。這種具有靈活性、可編程性的硬件芯片,能夠滿足快速迭代的需求。
3.2 轉發模型
為了滿足網元業務靈活性、多樣性的需求,我們將網元業務和底層平台功能分離,舍去了傳統的數據面Pipeline轉發模型,采用了類似Open Flow的macth+action的方式。這樣不同的match規則和不同action 匹配能夠實現不同的業務邏輯。這種弱依賴的關系能夠剝離了業務和底層細節,方便業務功能迭代、快速上線,同時底層可編程芯片的更新不會對業務邏輯產生影響。
3.3 網絡平台化
隨着雲上業務場景的復雜化,以及上雲的客戶越來越多,雲上網絡的功能也復雜化。為了統一計算節點以及網關節點功能,我們實現了統一的編程框架。這樣能夠快速開發不同功能的網關節點,減少運維負擔。
3.4 落地實踐
我們基於OVS-DPDK Offload 框架實現流表規則offload。OVS 采用首個報文觸發的方式下發硬件流表規則,該方式的優點為在必須的時候下發規則,能夠達到節省流表的目的,但是缺點卻會導致首個報文延遲。經調研我們發現網卡支持至少百萬級流表量(使用x86內存或者其他擴展內存),最終我們舍去OVS-DPDK ofproto 轉發層,使用dpctl 接口下發流表,這樣就不存在首個報文延遲問題,同時也縮減了使用TC Flower時數據面過多問題(這些轉發平面包括:硬件芯片轉發,TC數據面,OVS Linux 內核模塊轉發,以及ofproto層)。我們修改了OVS-DPDK 流表老化方式,保證通過dpctl 下發的規則不會被刪除。最后通過upcall limit 限制了upcall 報文處理。滴滴雲網絡數據平面主要分為兩大部分:計算節點和網關節點。計算節點主要負責虛擬機、容器網絡的虛擬化,網關節點主要負責各種邊際節點業務如:SLB負載均衡、vRouter EIP報文處理,分流器、SNAT、FullNAT、雲企業網等。可編程網卡芯片通過平台化的方式在兩個主要節點均有應用。
-
SLB負載均衡
提供四層負載均衡,根據用戶策略將underlayer網絡報文分發到虛擬網絡服務節點。 -
vRouter
提供彈性EIP服務。用戶可以將一個公網IP地址綁定到虛擬機、容器、或者裸金屬,從而獲得公網訪問功能。 -
iRouter
將滴滴數據中心和滴滴雲虛擬網絡打通,滴滴數據中心可以方便快捷的訪問雲上資源。 -
SNAT
為虛擬機、容器以及裸金屬提供訪問公網服務。 -
雲企業網互聯
互聯服務支持將滴滴雲上的多個VPC網絡加入雲互聯,任意兩個VPC網絡即可實現資源之間的互訪。 -
計算節點
在計算節點主要有兩大應用場景:一種場景為在計算節點為虛擬機、容器提供VPC服務(網絡隧道,限速,轉發,報文修改,公網服務),RDMA網絡。另外一個場景使用智能網卡為裸金屬提供VPC服務。
3.5 遇到的問題
在調研開發過程中遇到諸多問題,在這里和大家總結分享下:
-
OVS-DPDK 支持Offload 程度有限
首先OVS 社區並對DPDK Offload接口(rte flow)支持有限:實現的action非常有限。需要使用者獨立完成開發:如set action,meter offload,vxlan 隧道報文處理等。 -
端口轉發限制
目前mellanox網卡芯片並不支持從一個PF端口轉發到該芯片另一個端口, 最終我們通過SRIOV+Hairpin的方式解決該問題。據了解后續的網卡芯片開始支持該功能(功能也受限於固件)。 -
Open vSwitch Crash
在刪除包含meter action 流表規則時,OVS 進程退出。該問題最終確認為DPDK的一個bug,目前該問題已經修復,發送到社區並接收。http://git.dpdk.org/next/dpdk-next-net/commit/?id=0d7d180a0dda4b97021fc1f580d6bfe3b42a332d
調用DPDK Meter API 接口導致crash。目前該問題已經修復,發送到社區並接收。
http://git.dpdk.org/next/dpdk-next-net/commit/?id=4f19f4140e058c92822f228dcdc55c44bd88b613
修改OVS 配置導致刪除offload flow crash,目前該問題已經修復,發送到社區並接收。https://github.com/openvswitch/ovs/commit/058b80d3de31b2c539d9e6f5f6687bde78ef08e9
-
Meter offload
OVS社區沒有實現該功能,我們根據業務特征抽象出接口並在OVS實現了meter offload。該系 列補丁文件正在OVS 社區review,不久會進入upstream。 -
Decap/Encap 流表限制
下發多條帶有decap/encap的流表規則時報錯。該問題最終確認為DPDK的一個bug,目前該問題已經修復,與社區maintainer 協同修復。http://git.dpdk.org/next/dpdk-next-net/commit/?id=64927f72a72fad39898b084e0cf66cc97b40959f -
Decap + Meter action限制
decap + meter 做為action 下發規則時失敗。該問題最終確認為DPDK的一個bug,目前該問題已經修復,與社區maintainer 協同修復http://git.dpdk.org/next/dpdk-next-net/commit/?id=431f199883e5b7eeea87a2f9f0272daf3354c1da -
Hairpin 性能問題
在高並發情況下,mellanox 網卡芯片性能會下降約40%,最終確認是網卡驅動hairpin問題。目前mellanox 確認該問題並給出修復方式。 -
流表數目限制
通過刪除流表上限修復該問題:https://github.com/openvswitch/ovs/commit/df5c293642cc07013e796e588eb7aead917e20a1 -
MAC 地址對VxLAN的影響
物理主機源MAC地址變更后vxlan 報文依舊使用原來MAC地址,這樣會導致收不到響應報文:
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=6707f74be8621ae067d2cf1c4485900e2742c20f -
多次修改報文不生效問題
多次使用TC Flower pedit 修改報文,offload 不生效問題, 最終確認是內核驅動問題:
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=218d05ce326f9e1b40a56085431fa1068b43d5d9 -
配置vf rate、mac不當導致內核crash
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/?id=6e77c413e8e73d0f36b5358b601389d75ec4451c
https://git.kernel.org/pub/scm/linux/kernel/git/netdev/net-next.git/commit/? id=24319258660a84dd77f4be026a55b10a12524919
3.6 性能數據
以實現的vRouter 彈性公網網關為例(基礎網絡10Gpbs):
pps(64B) | Mpbs(64B) | pps(1500B) | Mpbs(1500B) |
---|---|---|---|
9495892 | 8660.25 | 811935 | 10067.98 |
業務延遲數據如下(使用pktgen-dpdk latency):
背景流量 | 網關延遲 |
---|---|
10W條流表以及並發1Gbps 64B流量 | 3u |
10W條流表以及並發5Gbps 64B流量 | 6u |
4. 開源社區貢獻
除了為開源社區提供 bug patch,我們也將新增特性、性能優化patch回饋至開源社區:OVS、DPDK、Linux 內核社區(約80+ patch), 其中Linux 內核補丁列表如下:
團隊介紹
滴滴雲平台事業群滴滴SDN網絡團隊負責雲網絡產品的規划、設計、以及研發等工作。為公有雲提供負載均衡SLB、專有網絡VPC、彈性公網EIP、SNAT 以及雲互聯等服務。團隊針對雲網絡業務需求,在Linux 內核網絡虛擬化、DPDK、OVS、可編程芯片、RDMA、智能網卡以及系統優化等領域均有廣泛深入的研究。團隊具有多名開源社區contributor,涉及OVS、DPDK、Linux 內核等。
作者介紹
專注於高性能網絡技術,從事雲網絡研發工作。活躍於Linux 內核、OVS、DPDK開源社區。
延伸閱讀
內容編輯 | Charlotte & Teeo
聯系我們 | DiDiTech@didiglobal.com
本文由博客群發一文多發等運營工具平台 OpenWrite 發布