物聯網安全相關數據集


物聯網安全相關數據集

[原文]數據集可以在NIDS部署時使用,但是現在(文章發表於2019)沒有專門針對IoT的數據集,因此開發者有兩種選擇1)使用針對傳統系統的數據集 2)部署嗅探軟件抓取自己網絡的數據
[思考]按照原文的說法,數據集有針對性,使用的時候注意考察數據集的適用范圍。
當前廣泛使用的數據集有

  • KDDCUP99(KDD99)
  • NSL-KDD相當於KDD99的改進版
  • UNSW-NB15是一個對於NIDS很尤其的數據集
  • 公共數據集包括PREDICT, CAIDA, DEFCON, ADFA IDS, KYOTO, ISCX 2012和ICS可以用來測試評估。

最新的數據集要么就是由未加標數據組成,要么在某些地區就不能用, 要么就是只針對某個特殊領域。

進一步地說,數據集面臨的問題還有1)隱私問題 2)繁重的輸入匿名 3)無法反映za當前最新的安全攻擊。

  1. KDD99
    KDD99是一個用來從正常連接中監測非正常連接的數據集。產出於1999年Thrid International Knowlegde Discovery and Data Mining Tools Competition(第三節國際知識發現和數據挖掘工具競賽),目的是建立一個魯棒的NIDS。數據集是DARPA數據集的特征提取版本(DARPA是基礎raw數據集)

KDD99包含了置入攻擊的軍事網絡環境中的記錄。攻擊可以分類為

  • Denial of Service, DoS攻擊
  • Remote to User, R2U
  • User to Root, U2R
  • Probing, 探針攻擊

KDD99對每個連接提取了41個特征,使用Bro-IDS工具打標簽。其41個特征可以按以下方式分類:

  • 1-9 每個TCP連接的基本特征
  • 10-22 連接內部的內容特征,由領域內知識建議(suggested by domain konwledge)
  • 23-31 使用2秒時間窗激素那的流量特征(Traffic features computed using a two-second time window)
  • 32-42 主機特征(Host features),用來評估持續時間再兩秒鍾以上的攻擊

KDD99在研究者當中十分流行,研究者也對其本身做了很多工作:

  • [*]減少特征數量,從最初的41個特征中選擇最有用的特征
  • [*]指出了KDD99的不足之處

    KDD99面臨不平衡的分類方法問題。測試集和訓練集的概率分布是不同的,由於在訓練集中加入新的攻擊,攻擊和正常流量的類別的平衡會被打破。[?]
    數據集太老了,可能存在過時的問題
    有證據表明,simulation artifacts[what is it?]可能會導致對異常檢測性能的過高估計

[*]:相關文獻查閱原文獲取

  1. NSL-KDD
    NSL-KDD是KDD99的升級版,克服了KDD99的諸多限制
  • 移除了訓練集和測試集中的重復記錄
  • 從原始KDD99數據集中選取了很多記錄以從分類器系統中獲得可靠的結果
  • 解決了數據集中概率分布不平衡的問題

該數據集存在的缺點就在於缺少現在的低蹤跡攻擊的案例
3. UNSW-NB15
UNSW-NB15由ACCS(Australian Center for Cyber Security)的網絡空間實驗室使用IXIA PerfectStorm工具創造。初衷是產生混合的真實的現在正常活動和綜合當代的攻擊行為。b包含了將近2,540,044個記錄,分別存儲於4個csv文件中。

這些記錄產生於最初使用tcpdump抓取到的100GB原始流量中(pcap)。其中包含了9中攻擊,分別為

  • Fuzzers
  • Analysis
  • Backdoors
  • DoS
  • Exploits
  • Generic
  • Reconnaissance
  • Shellcode
  • Worms
  1. Sivanathan et al. IoT dataset
    根據網絡流量特征對IoT設備進行分類。作者們使用28種IoTa設備(如攝像機、燈、插頭等)提供只能環境。
    他們在六個月時間內從這個基礎架構中合成了網絡流量跟蹤數據,來供研究者使用。
    Sivanathan等d通過使用活動周期、端口號,信令模式和密碼套件等進統計分析,可以提供有關網絡流量模式的寶貴建議。

  2. CICIDS數據集
    CICIDS是當前由University of New Brunswick開發的IDS、IPS的數據集之一,反應現在真實網絡數據中的了最新的威脅。

它建立在25個用戶的行為抽象基礎上,基於HTTP, HTTP, FTP, SSH和email協議。使用CICFlowMeter分析,基於時間戳、兩端IP、端口、協議和攻擊加標。為了生成真實流量,作者們使用B-Prodile方法來顯示出HTTP, HTTPS, FTP, SSH和email協議。作者們在捕獲數據的同時,使用了Brute force FTP, SSH Heartbleed 和DDoS攻擊。

與現有的傳統IDS不同,其評估皇家確定了構建可靠基准數據集所需的11個重要功能。
6. CSE-CIC-IDS2018數據庫
這個數據庫逐漸演變為替換現有的限制IDS/NIDS實驗評估的備選數據集的unique數據集。

為了克服靜態和一次性數據集的使用,它是一個惡意數據集,基於包含入侵行為的網絡環境中動態生成的數據。作者們在其中加入了7中攻擊情況:

  • Brute-force
  • Heartbleed
  • Botnet
  • DoS
  • DDoS
  • Web attacks
  • Local network infiltration attacks

攻擊基礎設施包含50個基點,靶向於5各組織共30台服務器和420台主機。作者們從使用CICFlowMeter-V3抓取的網絡流量和機器日志中提取了80個特征。

數據集的對比討論
KDD99是最流行的數據集,但是有點過時,太老了,為了克服KDD99的各種限制,NSL-KDD應運而生,通過刪除重復數據平衡了KDD99數據的平衡,但NSL-KDD也缺少現代攻擊。UNSW-NB15風評不錯,而且包含現在的攻擊,就新攻擊與正常行為的相似性來說,它比KDD99復雜很多。

對於最近的數據包

  • Sivanathan et al. 數據集相比而言它只是IoT的數據集,它是為物聯網設備激增而不是入侵檢測設計的。
  • CICIDS和CSECIC-IDS2018y都是加標記錄,但沒有特定針對於IoT系統安全,盡管它們的攻擊類型很新。

原文:CHAABOUNI N, MOSBAH M, ZEMMARI A, et al. Network Intrusion Detection for IoT Security Based on Learning Techniques [J]. Ieee Communications Surveys and Tutorials, 2019, 21(3): 2671-701.


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM