infiniband, fiber channel,RDMA

本文轉載自查看原文 2017-07-05 17:45 2063 RDMA/ infiniband/ IB/ 其他/ HPC/ fiber channel/ FC

yxr注：

1)在研究openpower時，看到mellanox公司是鉑金會員，其infiniband產品占據了超算(HPC)互聯的40%份額。

繼而研究infiniband技術和fiber channel，以太網，PCIE等等的關系，搜索羅列如下網頁

RDMA現狀以及TOE的網站

2) Infiniband不同於以太網，后者以網絡為中心,操作系統處理各種網絡層協議，而infiniband以應用程序為中心，繞過操作系統和CPU不用負責網絡通信，直接offload了CPU的負荷！

3）沒有深入研究，不知道infiniband的HCA和內存控制器如何相連，以前是Hub link，現在吧呢？猜測還是PCIE吧

沒有研究infiniband和PCIE的競爭，價格優劣以及性能優劣，好像低端的超算的使用PCIE。

沒有評估infiniband和omini-path,cray的技術，市場，價格的。

=================

http://www.chinastor.com/a/hpc/111S5M32016.html

在最新發布的全球超級計算機Top500榜單中，InfiniBand再次延續了其在互連方案上的絕對領先地位。2016年基於InfiniBand解決方案的終端用戶數量較Omni-Path高出近四倍，是Cray Aries的五倍，充分證明InfiniBand持續增長的使用率和市場份額。

InfiniBand互聯方案如今加速了65%的超算系統，並在TOP500榜單中的全部千萬億次系統中占據了近半壁江山(46%)。Mellanox持續為全球最快的超算系統提供互連，滿足了其對高性能、高可擴展及高效網絡的需求。此外，Mellanox以太網解決方案還連接了榜單中首個100Gb以太網系統和所有的40Gb以太網系統。

* 在2016 年TOP500 HPC項目中，65個終端用戶選擇了InfiniBand，用戶數量比 Omni-Path 高出近4倍，與 Cray Aries 相比高出5倍

(yxr注：只有65個終端？）

===============================

http://www.ssdfans.com/?p=767

互聯芯片對超算的巨大作用我們來看看美國田納西大學計算機學教授傑克·唐加拉對中國超算的評價：雖然”天河一號”的處理器仍主要采用美國產品，但其互聯芯片已全部替換為中國研究人員自主研制的產品。他說：”互聯芯片主要涉及處理器之間的信息流動，對於超級計算機的整體性能起到關鍵作用。’天河一號’的互聯芯片由中國研制，具有世界最先進的水平。”（《中國超級計算機運算速度奪冠互聯芯片自制》，http://info.ec.hc360.com/2010/11/171024365014.shtml）中國做出全球排名第一的天河一號超級計算機，自主研發的互聯芯片立了大功。

Intel代號為Knights Landing的第二代Xeon Phi處理器配備了Omni Path高速互聯接口。Intel在高速互聯領域很在就開始布局，早在2012年就收購了QLogic Infiniband技術和Cray的互聯技術。它的最終目標是開發Infiniband和True Scale的替代技術，能夠更快，更好，更便宜。所以，Intel推出Omni-Path真是煞費苦心，不是簡單的一個接口，而是完整的生態鏈。

=======

https://www.ibm.com/developerworks/cn/aix/library/1105_luoming_infiniband/index.html

Infiniband 的基本概念

網絡是常常被認為是路由器、交換機和插在服務器和存儲設備上的電纜的集合。在大部分人的印象里，網絡用來連接服務器到其他服務器、存儲和其他網絡。其實，這是一種普遍存在的對網絡的片面看法，它將過多的注意力集中在處於網絡底層結構的電纜和交換機上。這是典型的“以網絡為中心的”觀點：認為網絡的構成架構應該決定應用程序的通訊模式。

Infiniband 網絡則基於“以應用程序為中心”的新觀點。它的提出來源於一個簡單的問題：如何讓應用程序訪問其他應用程序以及存儲盡可能的簡單、高效和直接？如果以“應用程序為中心”的觀點來思考 I/O 問題，就能得到一種與傳統完全不同的網絡架構。

Infiniband 基於一種非常簡單的原則：提供一種易於使用的消息服務。這個服務可以被用來與其他應用程序、進程或者存儲進行通信。應用程序不再向操作系統提交訪問其他資源的申請，而是直接使用 Infiniband 消息服務。Infiniband 消息服務是一個非常高效、直接的消息服務，它摒棄了傳統網絡和應用程序之間消息傳遞的復雜結構。直接使用 Infiniband 服務意味着應用程序不再依賴操作系統來傳遞消息，這大大提高了通信效率。如圖 1，Infiniband 消息服務可以在兩個應用程序之間創建一個管道，來使應用程序之間直接進行通信，從而繞過了操作系統，大大提高了效率。

========

在http://icon.zhiding.cn/zdnet/itpapers/WP_Scalable_Storage_InfiniBand_Final.pdf中

那么，什么是InfiniBand，為什么越來越多的存儲系統銷售商不管是背板還是網絡連接都要用到此連接？InfiniBand是一種在2000年左右出現的，基於標准的網絡協
議。InfiniBand整合了NGIO和Future I/O(PCI總線替換技術的競爭技術)這兩種技術。

從設計上來說，InfiniBand具有總線技術的特點，但實際上，PCI Express——最終產生的PCI替換技術，從概述上來說是InfiniBand的一個子集。
InfiniBand與其他網絡的核心區別有兩個方面。

首先，其采用的是一種基於信用的流量控制系統（這個和PCIE一致）。即在接收對象未保證充足的緩沖之前，不會發送數據。這樣，就使得InfiniBand成為像無損光纖通道網絡架構那樣的光纖通道。

其次，InfiniBand支持遠程直接內存訪問（RDMA），具備在完全卸載CPU和操作系統的方式下，在兩個遠程系統的存儲區域移動數據的能力。作為原始總線設計遺留下來的的理念，如要對分布式系統進行擴展，RDMA是關鍵。有RDMA的InfiniBand具備多種關鍵優勢。

InfiniBand的物理信號技術一直超前於其他網絡技術，使得它都具備比其他任何網絡協議都大的帶寬。目前以56Gb/s運行的InfiniBand，其發展路線預計達到EDR(100Gb/s)的
時間是一年半左右。InfiniBand這一名稱本身即說明了其無限的帶寬發展前景。InfiniBand路線圖設計的目的就是要保證單個鏈路的帶寬能夠保持在大於PCIExpress(PCIe)總線數據速率的水平。這樣，系統就能夠以其可產生的最快速度，在網絡間移動數據，並且不會因出現因網絡限制而導致的備份。這樣，就可讓 InfiniBand具備無限帶寬。

=========================

http://blog.163.com/s_u/blog/static/13308367201231253232968/

yxr注：比較老，但是能看到歷史

而InfiniBand彌補了PCI總線的上述缺陷，以一種全新的方式把網絡中常見的交換和路由概念引入了I/O子系統當中。在InfiniBand架構中，最主要的硬件部分就是HCA、TCA和IB Link。HCA是Host Channel Adapter的縮寫，它是連接內存控制器和TCA的橋梁；TCA是Target Channel Adapter的縮寫，它將I/O設備（例如網卡、SCSI控制器）的數字信號打包發送給HCA；IB Link包含了連接HCA和TCA的光纖以及光纖交換機、路由器等整套設備。在現階段一根光纖的傳輸速率是2.5Git/s，支持全雙工模式，並且可以把多條光纖捆綁到一起工作，目前的模式有x4、x12兩種。
一言以蔽之，InfiniBand架構的核心就是把I/O子系統從服務器主機中剝離出去，通過光纖介質，采用基於交換的端到端的傳輸模式連接它們

下面我們看一下在InfiniBand架構中，數據是如何傳輸的。如圖1所示，InfiniBand架構相比PCI總線的方式更前進了一步，在內存控制器與HCA之間是通過Hub Link方式相連的，目前的標准是Hub Interface2.0。Hub Link是一種串行總線，它的工作頻率可以提到很高，而它最大的優勢就是良好的可擴展性，主板設計師可以根據需要的總線帶寬在內存控制器和HCA之間選擇多條Hub Link總線。

什么是Infiniband技術？ - suy - Suy的博客

從圖1中可以看出，數據從網卡或硬盤首先通過各自的I/O控制器送給TCA，再由TCA通過InfiniBand Link經過交換機甚至路由器送到HCA，再通過Hub Link總線送到內存控制器

InfiniBand對數據在傳送中的處理幾乎照搬了以太網協議的全部思想。和TCP/IP協議集極其相似，InfiniBand就是示分了 6個協議層，從Transport層向下各層數據的封裝都是由TCA和HCA自己完成的，不需要占用系統CPU的資源，交換機和路由器工作在 Network層。如果超越了Transport層，HCA會把任務交給系統處理，這一部分的工作需要操作系統的支持，但是對於TCA來說，它是不需要考慮這些的，只要把物理層的信號打包生成網絡層可以識別的packet，它的工作就算完成了。

=========================

http://dylan602.blog.163.com/blog/static/167974276201181934727159/

InfiniBand規范定義了3個基本組件：

一個主機信道適配器（HCA）
一個目標信道適配器（TCA）
一個網絡交換機

InfiniBand技術通過連接HCAs、TCAs、交換機和路由器而發揮作用（見圖3 ）。位於頁節點的InfiniBand設備是產生和使用信息包的信道適配器。

圖3. InfiniBand 架構模式

HCA 和TCA可以提供一個無需CPU干預的高可靠端－至－端連接。HCA駐留在處理器節點並提供從系統內存到InfiniBand網絡的通路。它也有一個可編程的直接內存訪問（DMA）引擎。該引擎具有特殊保護和地址翻譯特性，從而使DMA操作可以本地進行或者通過另一個HCA或TCA遠程進行。

TCA駐留在I/O單元，並提供I/O設備（如一個磁盤驅動器）或I/O網絡（如以太網或光纖通道）與InfiniBand網絡的連接。它實現了InfiniBand協議的物理層、鏈接層和傳輸層。

交換機放置在信道適配器之間。它們使幾個甚至幾千個InfiniBand頁節點可以在任意位置互連進一個單一網絡，該網絡同時支持多個連接。交換機既不產生，也不使用信息包。它們只是根據信息包中路由器報頭的目的地地址，將其傳送過去。交換機對於節點而言是透明的，同時信息包完整無損地經過交換機網。

=====================、

yxr注：2008的文章，10年前的文章，似乎很看好IB

從價格的角度，今天的Infiniband是萬兆以太網的幾分之一。Inifiniabnd有比FibreChannel高5倍的性能，在價格上則已與Fibre Channel在同一個數量級上。
存儲是內存的延伸，具有RDMA功能的Infiniband應該成為存儲的主流協議。比較一下Infiniband和Fibre Channel我們可以看到Infiniband的性能是Fibre Channel的5倍，Infiniband交換機的延遲是Fibre Channel交換機的1/10。另外在構築連接所有服務器和存儲器的高速網絡時使用Infiniband Fabric可以省去Fiber Channel Fabric,從而給客戶帶來巨大的成本節省。

　今天在使用Infiniband作為存儲協議方面已經有了很大的進展。作為iSCSI RDMA的存儲協議iSER已被IETF標准化。

　　不同於Fibre Channel，Infiniband在存儲領域中可以直接支持SAN和NAS。存儲系統已不能滿足於傳統的Fibre Channel SAN所提供的服務器與裸存儲的網絡連接架構。Fibre Channel SAN加千兆以太網加NFS的架構已經嚴重限制了系統的性能。在這種情況下應運而生的則是由在Infiniband fabric連接起來的服務器和iSER Infiniband存儲的基礎架構之上的並行文件系統(諸如HP的SFS、IBM的GPFS等等)。在未來的服務器、存儲器網絡的典型結構將會是由Infiniband將服務器和Infiniband存儲器直接連接起來，所有的IP數據網絡將會通過萬兆以太網到Infiniband的路由器直接進入Infiniband Fabric。

===========================================

http://weibo.com/p/1001603936363903889917?mod=zwenzhang

兩種以太網 RDMA 協議： iWARP 和 RoCE

本文是講演 How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics【1】的摘要。

如果 NVMe 存儲系統與主機是分離的，顯然需要某種 fabric 把它們連接，這樣主機才能使用存儲系統。目前，支持遠程連接的 fabric 包括：

RDMA 協議：底層可以是以太網（ RoCE 或者 iWARP ）或者 Infiniband
Fibre Channel 協議：底層可以是 FC 網絡或者以太網（FCoE）

一、為什么需要 RDMA ？

RDMA (Remote Direct Memory Access) 是一種繞過主機 (host-offload/host-bypass) 技術：一個應用（包括存儲）<--發送/接收數據-->另外一個（遠程）應用的內存空間。

Source Application <-- （發送/接收、完成）隊列 --> 帶 RDMA 功能的網卡 <-- 可靠的網絡連接 --> 帶RDMA 功能的網卡 <-- （發送/接收、完成）隊列 --> Target Application

由上圖可知，應用程序可以從一台（物理的或者虛擬的）機器直接傳送數據到另外一台機器，這既提高了帶寬又降低了延遲、抖動和 CPU 消耗。

各種操作系統支持 RDMA ：

Windows Server: 從 Windows HPC Server 2008 開始支持 Network Direct userspace API ；從 Windows Server 2012 開始支持 Network Direct kernel API
Linux: 從2004年開始，由 OpenFabrics Alliance 提供 userspace/kernel API ， RHEL 和 SLES 已經自帶， Ubuntu 要自己安裝？
FreeBSD 9.0+ 支持 OpenFabrics Alliance userspace/kernel API

具體來說， RDMA 技術特性帶來的好處如下圖所示：

NVMe 設備延遲很低，這就要求網絡延遲也必須很低， RDMA 正好滿足這一點。

二、用 RDMA 發送 NVMe 寫命令

以一個 NVMe 寫操作為例。 NVMe 主機驅動把寫命令及數據（從 NVMe 提交隊列取出一項）封裝一個與底層傳輸無關的命令膠囊（capsule）；膠囊被放到主機 RDMA 網卡的發送隊列中，由 RDMA_SEND 發送出去；目標主機的 RDMA 網卡在接收隊列中收到這個膠囊，解除封裝，把 NVMe 命令及數據放到目標主機的內存中；目標主機處理 NVMe 命令及數據；完成后，目標主機封裝一個 NVMe 命令完成項，由 RDMA 傳輸到源主機。

三、兩種基於以太網的 RDMA 協議

第一種：以太網->IP->UDP->RoCE (RDMA over Converged Ethernet) v2

第二種：以太網->IP->TCP（去掉 TCP/IP 流量控制和管理）->iWARP

不同協議的網卡之間並不兼容，也就說支持 RoCE 協議的網卡不能與支持 iWARP 協議的網卡交換數據。

兩種協議的供應商上台系統不一樣，

對底層網絡基礎設施的要求也不一樣：

了解更多細節，

【1】How Ethernet RDMA Protocols iWARP and RoCE Support NVMe over Fabrics https://www.brighttalk.com/webcast/663/185909

====================

http://www.tomsitpro.com/articles/nvme-over-fabrics-qlogic-brocade,1-3064.html

2015的文章，似乎為了證明Fiber Channel仍然有市場。。。。

Fibre Channel Vs Ethernet Battle Continues As Brocade, QLogic Demo FC NVMe Over Fabrics

QLogic and Brocade are showing the first NVMe over Fabrics (NVMeF) demonstration utilizing Fibre Channel as the fabric (FC-NVMe) at the Gartner Data Center, Infrastructure and Operations Management Conference.
NVMeF is shaping up to be the leading protocol employed in future low-latency flash-based storage arrays. The NVMe consortium designed the original protocol to increase performance and scalability while simultaneously reducing latency and CPU overhead for in-chassis nonvolatile memories. It was not long before architects, enamored with the lightweight protocol, envisioned the possibilities of employing NVMe as an end-to-end fabric.

However, FC-NVMe may lead to a Fibre Channel resurgence if it can offer tangible benefits over competing RDMA over RoCE and InfiniBand implementations. There is no doubt that NVMeF is coming to the datacenter on an accelerated time frame - the only question is which interconnect will prove to be the most popular.

=========================

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Fibre Channel和Fiber Channel 【RDMA】InfiniBand IB常用命令【RDMA】RDMA抓包|InfiniBand 連接和狀態診斷工具|性能測試工具 fiber 【RDMA】infiniband網卡安裝|ib網卡命令|ibdump 用法說明 RDMA Fiber原理【RDMA】RDMA編程 Infiniband 網絡性能測試 InfiniBand技術--rds協議