《當大數據遇見網絡:大數據與SDN》


總體結構:

《當大數據遇見網絡:大數據與SDN》

摘要

大數據和SDN無論是對於學術界還是工業界來說都極具吸引力。傳統上人們都是分別在最前沿工作中研究這兩個重要的領域。然而一方面,SDN的特點可以極大促進大數據的獲得(acquisition)、傳輸(transmission)、存儲(storage)和處理(processing)。在另一方面,大數據也在SDN的設計(design)和運作(operation)發揮着深遠的影響。在這篇文章中,我們展示了SDN在解決一些主要和大數據應用有關的問題的長處(good features),包括大數據在雲數據中心的處理(cloud data centers),數據傳遞(data delivery),聯合優化(joint optimization),科學的大數據結構和調用問題(scientific big data architectures and scheduling issues)。我們展示了SDN可以高效管理網絡,以改善大數據應用的性能。另外展示了大數據也有利於SDN,包括流量工程(traffic engineering)、跨層設計(cross-layer design)、防范安全攻擊(defeating security attacks)和基於SDN內部(SDN-based intra)和內部數據中心網絡(inter data center networks)。此外,我們討論一些未來研究中需要人們解決(address)的已知問題,以共同考慮大數據和SDN。

主要內容

大數據

大數據的特點:人們通常習慣稱大數據為“5Vs”(最初稱為“3Vs”;其中兩個是最近添加的):volume(數據集的大小)、variety(數據類型和來源的范圍)、速率(velocity)(數據進出的速度)、價值(如何使用數據)和真實性(veracity)(數據質量)。
現狀:大數據應用程序體積龐大,計算復雜,故需要網絡底層的支持。而SDN更易開發和部署應用程序,在SDN中可使用全局視圖,可直接一致執行網絡策略。
什么是大數據:關於大數據的兩種兩種定義:

  1. 屬性定義:根據"5Vs"特點來進行定義。
  2. 比較定義:“數據集大小超出了典型數據庫工具捕獲、存儲、管理和分析的能力。”

SDN的良好特性有利於大數據應用程序,如圖1所示:

圖1.SDN的良好特性有利於大數據應用程序

Software-Defined Networking Can Benefit Big Data Applications(SDN可以使大數據應用程序受益)

SDN Can Benefit Big Data Processing in Cloud DataCenters(SDN可以為雲數據中心的大數據處理帶來好處)

那SDN有利於大數據的哪些方面呢?首先談談大數據。大數據應用程序的資源請求是動態改變的,如何有效地分配和管理雲數據中心的資源,以滿足不同大數據應用的SLA需求是非常重要的。

SLA:大數據應用程序的SLA是大數據服務提供商與其用戶之間協商(negotiate)達成的協議(agreement)。
SLA定義了提供的大數據服務的特點,包括服務水平目標(service level objectives)、預期服務質量(expected quality of service (QoS))和未滿足大數據服務提供者目標的處罰。

那SDN有什么用呢?使用啟用了SDN的數據中心、網絡和存儲基礎設施作為服務交付並由SDN來實現自動化。
在參考文獻[4]中,研究了一個基於SDN的雲數據中心在大數據應用中的應用。

具體來說(Specifically),提出了一個基於SDN的OpenFlow網絡,該網絡具有輸入和交叉點隊列(crosspoint queued)(CICQ)交換機,用於調度(schedule)不同大數據應用程序的數據包。在這種方法中,控制器為不同類型的大數據應用程序維護(maintain)帶寬供應表(bandwidth provisioning table),並將其發送給CICQ交換機,然后交換機根據控制器提供的帶寬表確定分組調度優先級(scheduling priorities),資源分配高效,在雲數據中心的不同大數據應用中也降低了功耗。

在文獻[5]中,作者提出了基於SDN 的數據中心,具有最有拓撲結構(optimal topology composition)和流量負載平衡(traffic load balancing)。
) 最優拓撲結構找到一個子集數據中心網絡拓撲結構,可以滿足(accommodate)不同大數據應用程序的預期流量需求(expected traffic demands)。為了處理網絡擁塞(network congestion),流量負載平衡通過找到最優子集拓撲來分配不斷變化的業務需求。

SDN Can Benefit Data Delivery for Big Data Applications(SDN可以為大數據應用程序提供數據)

由於數據體積巨大,在大數據應用程序中傳遞數據是一項巨大的挑戰。
作者提出基於SDN的光網絡來加速和支持大數據應用的“-cast”的流量傳遞。大數據應用導致了大量的流量,其不同的通信模式被表示為“-cast”,結合了單播、多播、Incast和all-to-all cast。
在文獻[7]中提出了一種混合(hybrid)(光和電)方法,它利用物理層光學(physical layer optics)來加速每一種模式的流量傳遞,應用驅動控制平面與SDN兼容,使得(enabling)光子設備的靈活狀態運行時的配置(dynamic runtime configuration)能夠支持復雜的流量模式。
為了處理大數據應用程序中的突發數據(bursting data),文獻[8]的作者提出了一種支持SDN的主題傳輸體系結構,它可以無縫地(seamlessly)與SDN的部署相結合(mesh)。在這種可編程架構中,一個核心傳輸節點被抽象(abstract)為一個可編程虛擬交換機,該交換機利用(leverage)OpenFlow協議進行控制。通過對大數據應用的原型演示(prototype demonstration),證明了SDN所帶來的可編程性和靈活性可以極大地促進大數據應用的數據傳遞。
此外,超高清視頻流(ultra-high-definition video streaming)和視頻會議(Video conference )是大數據應用程序的例子。文章[9]提出了一種集成(integrate)SDN和廣義多協議(Generalized multiprotocol label)標簽交換(GMPLS)控制平面的系統,並證明了這種體系結構能夠支持各種大數據應用。在這種方法中,OpenFlow可以被稱為“網絡大腦”,GMPLS用於支持多種類型的交換,如時分復用(TDM)、Lambda、波段和光纖交換。

Programming at Runtime for Optimizing Big Data Applications(運行時編程優化大數據應用程序)

因為不斷變化的環境,許多大數據應用程序頻繁要求重新配置。SDN的可編程能力(capability of programming)對這種情況就非常有用。文章[10]的作者介紹了一種基於SDN的大數據應用網絡跨層結構(cross-layer structure)。

SDN Can Benefit Scientific Big Data Architectures(SDN可有利於科學大數據架構)

校園網絡沒有能力處理如此巨大的數據。隨着數據數目的不斷增加,現在更需要簡單的、可伸縮的(scalable)端到端網絡體系結構和實現,以使應用程序能夠最有效地使用網絡[11]。
為了繞過典型校園網中的傳統性能熱點進行科學大數據的應用,SDN具有一定的優勢來解決這一問題。Mona等人.將SDN引入到科學的大數據體系結構模型中[11],提出了一種新的校園網絡體系結構模型,該模型將SDN應用於同一校園網中的多學科領域(multi-science disciplines)。該模型還為科研協作(collaborations)建立了一個虛擬廣域網(virtual network over wide area networks)(WANs)。此外,還引入了一種基於SDN/OpenFlow的終端站點體系結構(end-site architecture),以支持多個科學學科。該模型提出了一個數據傳輸節點(DTN)重定向器(redirector)。每個DTN可以向DTN重定向發送數據傳輸請求。當DTN重定向器接受數據傳輸請求時,使用OpenFlow規則將數據傳輸到請求DTN。它可以將數據流封裝(encapsulate)在預先核准的虛擬局域網中,從而繞過(bypass)防火牆功能。SDN/OpenFlow控制器管理與校園網有關的所有策略。這種新的架構模型的有效性(effectiveness)被證明用於科學大數據應用。

SDN Can Benefit Scheduling in Hadoop for Big Data Applications(SDN可以使Hadoop中的大數據應用程序的調度更有利)

對Hadoop的介紹:Hadoop作為一種支持大數據存儲和處理的軟件框架,受到業界和學者的廣泛關注(substantial attention)。Hadoop將數據存儲、數據處理、系統管理和其他模塊集成在一起,形成了功能強大的系統級解決方案,正在成為處理大數據挑戰的主流(mainstay)。
但在Hadoop中需要解決的一個重要問題是NP-完全最小共軛問題(he NP-complete minimum make span problem)[12],它對Hadoop系統的性能有着重要的影響。

圖2.基於SDN和大數據的動態流量工程系統體系結構

文章[12]在Hadoop中采用SDN來解決這個問題。具體來說,提出了一種基於SDN和帶寬感知的調度器(bandwidth-aware scheduler),它可以靈活地以最優方式分配(assign)任務,並從全局角度保證(guarantee)數據局部性。它首先利用(utilize)SDN來管理網絡帶寬並以時隙方式分配帶寬,然后根據完成時間決定是在本地還是遠程分配任務。因此,這種方法可以保證全局視圖中的數據局部性(data locality),同時可以有效地分配任務。該方法(approach)的關鍵點是SDN/OpenFlow控制器的稀缺網絡帶寬不僅被考慮到,而且被認為是任務調度的一個重要參數(a vital parameter)。實際實驗表明,該方法可以提高Hadoop中大數據應用的調度性能。

Big Data Can Benefit Software-Defined Networking(大數據有利於SDN)

Big Data Can Benefit Traffic Engineering in SDN

流量工程的典型目標是均衡網絡負載(network load)和最大化網絡利用率(utilization)。由於以下原因,將大數據和SDN結合用於流量工程將是一個恰當的解決方案(an apt solution):
1.通過邏輯集中的SDN控制器獲取大數據流量和故障信息相對容易。
2.任意粒度(arbitrary granularity)的大流量數據的任何流格式(flow format)都可以用於流量工程。
3.通過修改交換機內的流表(flow tables),將流量工程結果應用於數據中心網絡中的交換機相對容易。

圖3.具有SDN和大數據的跨層設計

在圖2中,我們描述了一個具有SDN和大數據的動態流量工程系統的體系結構。數據中心網絡中的SDN交換機/路由器通過控制/數據平面接口(interface)向SDN控制器報告其大流量數據和故障狀態。SDN控制器對采集到的大流量數據信息進行匯總和總結(aggregate and summarize),並將其發送給大數據應用程序。大數據分析利用(leverage to)分析方法從大流量數據中獲取洞察力(insights),進而指導(guidance)流量工程管理者制定流量工程策略。根據這些流量工程策略,SDN控制器通過更新SDN設備的流表來改變SDN設備的切換行為,並在數據中心網絡中打開/關閉設備和鏈路,以最小化功耗和鏈路擁塞。

Big Data Can Benefit Cross-Layer Design in SDN(SDN中的大數據有利於跨層設計)

大數據不僅有利於流量工程,也有利於SDN的其他層。跨層設計的最新進展(recent advances)表明,非相鄰層可以在運行時共享信息,這將導致新的算法,並顯著(significantly)改善網絡系統的性能。
大數據可以使SDN中的跨層設計受益,SDN中的邏輯集中控制器具有全局性的網絡視圖,使其能夠從任意粒度(granularity)的所有不同層獲取大數據,如物理層的信道狀態信息、數據鏈路/網絡層的分組信息和應用層的應用信息。將大數據技術應用於網絡控制和管理,可以極大地改善網絡的控制和管理過程,因此,SDN中的跨層設計將是一個具有挑戰性的課題。
本文提出了一種將大數據和SDN相結合(facilitate)的體系結構,該體系結構可以在大數據的幫助下,方便SDN中的跨層設計。

Big Data can Benefit SDN in Defeating Security Attacks(大數據可以幫助SDN抵御安全攻擊)

我們可以將在SDN上發起的攻擊分(calssify)為三類(categories):應用層攻擊、控制層攻擊和基礎結構層攻擊。大數據分析在緩解(mitigate)安全攻擊問題上的應用越來越受到人們的關注。大數據分析的能力使我們能夠以不同的格式(formats)全面分析來自不同來源的大量不同和復雜的數據。我們可以對這些數據進行比較,進行異常檢測(perform anomaly detection),並實時(in real time)對抗網絡威脅。可以建立多維到超高維的數據模型(Multi-dimensional to ultra-high-dimensional data models),以准確地在線描述(profile)數據流,從而可以實時檢測甚至預測安全攻擊。大數據分析還可以提供異構(各種各樣的,heterogeneous)安全數據之間的關聯方法。此外,大數據分析的機器學習方法有可能成功地抵御未來的攻擊和檢測異常(detect anomalies)。

圖4.可對SDN的三層進行潛在的攻擊

SDN-Based Intra- and Inter-Data-Center Networks with Big Data(基於SDN的大數據中心網)

SDN是數據中心最大(maximal resource utilization)資源利用率的一種很有前途的(promising)解決方案。對於內部數據中心網絡,文章[14]的作者提出了一種基於OpenFlow的光網絡中的時間感知SDN(TASDN)體系結構。TASDN根據數據中心請求的到達情況,可以根據時間因素(time factors)和響應因子(response factors)協調(coordinate)大數據應用程序。
對於數據中心間(inter-)網絡,Zhang等人提出了一種適用於大數據應用的增強型SDN(ESDN)體系結構[15]。
在圖5中,我們提出了一種具有大數據和SDN的數據內部和數據間中心網絡的體系結構,它還包括三層:基礎層、數據處理和控制層以及應用層。

圖5.基於SDN的大數據和數據中心網絡

Open Issues(公開問題)

在本節中,我們將討論大數據和SDN聯合設計中的一些尚未解決的問題。

Scalable Controller Management(可擴展控制器管理)

當SDN中的網絡控制器被用於(is used for)大數據應用時,由於其快速頻繁的表更新請求以及(as well as)大的數據傳輸和處理,其性能會下降(be regrated)。

Intelligent Flow Table/Rule Management(智能流程圖/規則管理)

在交換機中不進行數據預處理(preprocessing),這會導致控制器負載過重(heavy load)。

High Flexible Language Abstraction(高度靈活的語言抽象)

SDN中常用的高級編程語言對於大數據應用程序的開發仍然缺乏(missing for)

Wireless Mobile Big Data(無線移動大數據)

隨着無線移動網絡的迅速發展,越來越多的數據從移動設備和網絡中被收集起來。因此,研究SDN在無線移動網絡中大數據應用中的優勢還有待進一步的研究(be conducted)。

Conclusion (結論)

本文首先討論了大數據和SDN的基本特點和新趨勢。然后介紹了SDN(控制與數據平面分離、邏輯集中控制、全局網絡視圖、網絡編程能力等)對大數據應用的好處,包括雲數據中心的大數據處理、數據傳遞、聯合優化、科學的大數據體系結構和調度問題。此外,我們還表明,大數據可以使sdn的各個方面受益,包括流量工程、跨層設計、擊敗安全攻擊以及基於sdn的數據內部和數據中心間網絡。此外,我們還討論了一些有待進一步研究的問題,如可擴展控制器管理、智能表/規則管理、高度靈活的語言抽象和無線移動大數據。
綜上所述,大數據和SDN的聯合設計可以成為大數據網絡的一種很有前途的解決方案。如何充分利用SDN的優勢,提高大數據應用的性能,如何利用大數據使SDN更好、更有效地工作,是亟待解決的問題。本文對大數據與SDN聯合設計的相關技術進行了簡要的探討,並對今后的研究進行了有益的探討。


原文:https://share.weiyun.com/5ZOmxgm
翻譯:https://share.weiyun.com/5aBXzbR


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM