1. 拉高視角,從宏觀看網絡安全攻防
伴隨着信息化的發展,網絡安全的問題就一直日益突出,與此同時,網絡安全技術也成為研究熱點,直到今日也沒有停止。
從微觀來看,網絡安全技術研究指的是針對某項或某幾項指標的完善,例如:
- 針對WEB系統漏洞的挖掘和利用,以及與此相應的日志采集以及關鍵點審計技術,例如RASP和WAF,核心指標是精確率和召回率
- 惡意代碼作者為了躲避病毒AV的靜態和動態檢測機制,通過隱寫、混淆、多態等手段隱藏惡意代碼的表征行為,與此對應的,病毒查殺廠商通過研究相應的反混淆、動態沙箱、插樁等技術,希望更有效地提取惡意代碼的表征行為
在關注具體技術研究的同時,我們也需要意識到,網絡安全策略的研究在某種程度上比技術研究更為重要,特別是對於同樣的技術采用不同的安全策略會取得不同的效果。
網絡安全中攻防對抗的本質可以抽象為攻防雙方的策略依存性,而這種策略依存性正式博弈論的基本特征,因而可以考慮應用博弈論來解決網絡安全攻防對抗的問題。
在學術界,博弈論應用於網絡安全處於發展階段,相關的學術研究脈絡有:
- 國外學者 Stakhanova等人,通過隨機博弈、不完全信息博弈等模型來進行入侵意圖、目標和策略的推理
- Reddy指出關於入侵檢測的研究主要且多數建立在一次性博弈分析的基礎上
- SHEN Shi-gen認為考慮到真實場景中攻擊的重復性,將其視為一個重復的多階段博弈的過程顯然更為合理
- Agaha等建立了無線傳感器網絡中基於重復博弈理論的攻防模型
- 朱建明提出了基於博弈論對信息安全技術進行評價的模型,其研究側重於信息安全機制的優化配置
- 孫薇等人建立了信息安全攻防的博弈模型,分析防守方和攻擊方的復制動態及進化穩定策略,其模型考慮到現實社會中的有限理性,引入了演化博弈來研究攻防對抗的規律
2. 網絡安全攻防系統動力學模型
在信息網絡中,由於不同的攻擊者和防御者對信息安全知識的不同理解和反應,因此產生了不同的預測和決策機制。
每個參與者獲得不同的收益,隨着時間的推移,每個參與者通過學習成功者的經驗,不斷改進自己的安全策略,形成新的攻防形勢。
在參與者不斷改進攻防策略的內在驅使下,隨着網絡安全技術不斷進步,企業對系統的持續調整,都會使信息安全問題呈動態進化趨勢,進而形成了不斷進化的網絡安全體系。
用系統動力學對相關問題的演化博弈進行仿真,可以從全局整體考察博弈均衡背后的動態特性,而演化博弈論的分析則對建模和制定相應的決策起到至關重要的作用。
0x1:系統邊界的定義
清晰的界定系統的邊界是模型成功與否的關鍵步驟。界定系統的邊界必須緊緊圍繞建模目的以及研究對象,真正將關注點放在核心問題上,可以考慮忽略非重要的因素。研究的對象是網絡中攻防雙方的演化博弈系統。
從參與者結構來看,系統內存在兩類個體:
- 防守方
- 攻擊方
從演化的范圍來看,系統演化包括:
- 防守方之間的學習
- 防守方競品之間的互相學習
- 攻擊方之間的學習
- 0day披露后,在攻擊者社群中迅速傳播,攻擊者會競相模仿
- 防守方和攻擊方之間的對抗
- 安全攻防知識的對抗
- 信息不對稱的對抗,例如防守方不知道攻擊者采取了何種IDS技術
從影響因素來看,根據演化博弈模型的分析框架,系統影響因素應包括:
- 防守方收益
- 防守方成本
- 針對某個攻擊向量的攻擊,防守方需要投入大量的研發成本
- 防守方為了防住一個點,往往需要建設一個面
- 攻擊方收益
- 攻擊方成本
網絡中攻防演化博弈系統的構成要素如下表所示:
0x2:基本假設
模型的基本假設如下:
- 攻防雙方演化博弈系統限定在網絡上的攻防雙方,在根據對方的策略集采取采取策略演。不考慮攻防雙方角色的轉化以及蜜罐技術等其他因素。
- 攻擊方和防守方對信息資產的價值認可是相同的
- 在足夠長的時間內,攻擊者的技術水平和防守方的技術水平沒有絕對差距,即攻防技術的研究是對等的
- 攻擊方和防守方通過社會網絡,能夠各自充分了解同質群體采取行動的效用,即攻擊方和防守方都各自能夠了解自己的群體,並互相學習
- 防守方采取的行動是完全有效的
0x3:模型符號系統構建
網絡安全演化博弈系統動力學模型由4個流位、2個流率、13個中間變量、和3個外部變量構成,如下圖所示,
- 流位變量
- defensenoinvest:防守方放棄信息安全投資的概率
- defenseinvest:防守方選擇進行信息安全投資的概率
- attacknoaction:攻擊方放棄攻擊的概率
- attackaction:攻擊方選擇采集攻擊的概率
- 流率變量
- 中間變量
- 外部變量
- P1:信息安全資產價值,同時也是防守收益
- P2:攻擊方收益,根據前面的攻防等效假設,P1=P2
- C1:防守方信息安全投入成本,表示防守方投入設備、人力和無形資產等全部的價值
- C2:攻擊方成本,表示攻擊方在人力、設備和法律懲罰方面產生的投入
0x4:博弈系統演進動力方程分析
根據上述流圖,構建的博弈樹如下圖所示:
計算防守者的期望收益和平均收益:
當投入效益和不投入效益不相等時,效益差的防守者會模仿效益好的防守者。
設采取投入策略與采取不投入策略人的比例是時間的函數,分別表示為 p(t) 和 1-p(t)。
投入策略的動態變化速度可以用如下復制動態方程表示:
同理,計算攻擊者的情況:
模型穩定性分析,令:
求出博弈系統的平衡狀態,得到:
其中,X1、X2、X3、X4為鞍點,X5為中心點,系統不存在演化穩定均衡,只要有微小的變化,系統就會受到重大的影響。
這說明網絡安全問題僅靠技術的投入是無法得到徹底解決的。攻防雙方兩大陣營永遠在不斷的動態博弈中,而驅動這種博弈的源動力,就來自於攻擊者攻擊收益的變化,這常常伴隨着某些黑產變現手段的出現和繁盛,例如:
- 加密貨幣
- 基於非對稱算法的勒索病毒
- 簡易有效的0/Nday漏洞披露
- SEO污染的買房市場繁榮
- 挖礦收益
因為源源不斷地收益誘惑這個源動力的存在,會讓攻擊者群體不斷升級演進己方的技術,自然這會打破某一時期存在的短暫納什均衡。
攻擊方通過打破納什均衡在獲得超額收益后,會有一小部分防守者率先升級防御技術,投入防御產品研發,進而獲得了更好的防御效果,之后,防守群體中的其他個體會進行學習與模仿,最終,攻防群體重新達到一個新的納什均衡。
此后,下一輪的新的擾動與動態演化又開始了。
0x5:模型檢驗
系統動力學模型是對真實世界系統抽象和簡化的結果,並不是真實世界系統的復制品,所以從再現客觀世界真實情況來看,任何模型都不是完全正確的。只要模型在既定的假設下有效接近真實世界的系統,完成既定條件下的目標,那么就可以認為模型的構建具有客觀性、合理性和實用性。
1. 系統邊界檢驗
系統邊界測試主要是檢查系統中重要的概念和變量是否為內生變量,同時測試系統的行為對系統邊界假設的變動是否敏感。
用系統動力學對演化博弈建立的目的,是研究網絡攻防演化過程中系統內部影響因素的動態特征,並通過這些影響因素找出網絡攻防的優化策略集。
模型的邊界是在繼承前期網絡攻防博弈的相關研究成果基礎上,根據建模目的和現實系統的實際情況而確定的。該模型包含了與所研究問題密切相關的重要因素,並摒除了對系統影響較小的因素,因此對網絡攻防演化博弈的系統邊界是合理、有效的。
2. 有效性檢驗
有效性檢驗是為了驗證模型所獲信息與行為是否反映了實際系統的特征與變化規律,通過模型的分析研究能否正確認識與理解所要解決的問題。在現實的網絡環境中,攻防雙方都根據對方的行動采取相應的策略。
1)攻防處於均勢初始狀態的演化
如果初始狀態為:
- 防守方都進行有效安全投資
- 攻擊方都進行攻擊
那么經過一段時間演化,攻防對抗不斷交替升級,防守方始終處於滯后循環的狀態。
2)守強攻弱的初始狀態的演化
如果初始狀態時,防守方都進行了有效安全投資,攻擊方沒有相對收益,那么經過一段時間演化,攻擊方攻擊概率都將降為0。
通過仿真實驗,假設攻擊方初始狀態為0.9,經過演化攻擊方進行攻擊概率迅速降至0,
初始防守概率為1,攻擊概率為0.9,之后的概率演進
3)攻強守弱的初始狀態的演化
如果初始狀態為攻擊方都采取攻擊行動,防守方受到損失,經過一段時間演化,防守方都將進行安全投資。
系統仿真中假設所有攻擊方都進行攻擊,防守方初始狀態為0.1時,經過有演化迅速達到1的均衡狀態,
初始攻擊概率為1,防守概率為0.1,之后的概率演進
現實世界中第三種情況占了絕大多數,網絡安全中防守技術的的起步比攻擊技術要晚,防守技術以及防守產品落地時,攻擊方往往已經處於上峰優勢地位很久了。這個時候防守方會呈現追趕的態勢,在經過一段時間后,攻防達到平衡,此后就回到第一種狀態,即防守方會持續處於滯后循環中。
Relevant Link:
http://xueshu.baidu.com/usercenter/paper/show?paperid=eb82da16d21916df568789de58231e7e&site=xueshu_se
3. 網絡安全攻防對抗治理策略
0x1:所謂的提供攻擊者成本說法是否合理?
研究信息攻防博弈的最常見治理策略就是:提高攻擊者成本,或加大對攻擊者的懲罰力度。
針對類似問題,有學者已經證明混合戰略博弈中提高懲罰力度,其實無法改變被懲罰者違規概率的均衡點。
實踐中通過防御手段提高攻擊者攻擊成本的應用,是因為其在短期內可以以降低被懲罰者的均衡點,而從長期來看,該策略忽視了懲罰力度的加大實際上對於雙方的支付矩陣都是有影響了。
一般來說防守者投入概率越高,攻擊者采取行動的成本越高,或者被發現的概率越大,導致受到懲罰的可能越大。
系統仿真中設 C2 = 2+p*2,在短期內,攻擊者的攻擊概率可以下降至0,但從長期來看,由於防守方策略也受影響,攻擊者的概率不會穩定在較低點,而是波動起伏的,
雙方演化博弈過程
隨着博弈次數和時間的變化,波動振幅也會加大,博弈無法達到演化均衡點。
所以,依靠防守方加大投資,是無法達到演化均衡的,最終呈現攻防雙方反復波動的狀態,並且防守方還是是滯后波動的。
0x2:引入第三方懲罰機制
當加入動態懲罰策略,如:
- 第三方監管部門對攻擊者的懲罰力度
- 國家法律對攻擊行為的定罪和制裁
- 相關部分對攻擊者的追溯和懲罰
考慮對整個博弈模型的穩定性影響,系統中假設當 C2=2+2*q 時,隨着博弈次數和時間的增加,攻擊者采取攻擊的概率逐漸收斂,穩定在納什均衡點。
防守方和攻擊方概率變化
可以看到,引入第三方動態懲罰策略的系統博弈是存在演化均衡的。
現實中,防守方投入如果側重於攻擊者攻擊的追蹤,為第三方監管部門進行動態懲罰提供網絡攻擊行為的審查線索,是有效遏制網絡攻擊的重要途徑。
0x3:關閉或者減少攻擊者獲得收益的渠道
解決問題的另一個思路是減少攻擊者獲取收益的渠道,正常情況下,攻防雙方在持續投入的情況下,攻防概率是處於一個納什均衡中的,這個時候,如果沒有新的變現和盈利渠道,那么攻擊方就不會有動力去打破當前的均衡點。