知識圖譜 知識計算--- 本體推理 規則推理 路徑計算 社區計算 相似圖計算 鏈接預測 不一致檢測


技術分享 | 知識圖譜在網絡安全領域的應用

from:http://www.winicssec.com/Index/show/catid/57/id/560.html

 

一、知識圖譜介紹 

1.jpg

知識圖譜(Knowledge Graph)是Google在2012年提出來的概念。從學術的角度,知識圖譜本質上是語義網絡(Semantic Network)的知識庫,從實際應用的角度出發可以簡單地把知識圖譜理解成多關系圖(Multi-relational Graph)。多關系圖的意思就是包含多種類型的節點和多種類型的邊的圖結構。這里的圖既可以是有向圖,也可以是無向圖。

知識圖譜用節點和關系組成圖譜,為真實世界的各個場景直觀地建模。通過不同知識的關聯性形成一個網狀的知識結構,對機器來說就是圖譜。知識圖譜對於人工智能的重要價值在於,知識是人工智能的基石。構建知識圖譜這個過程的本質,就是讓機器形成認知能力,去理解這個世界。

所以,知識圖譜是人工智能的一個重要分支。在19世紀80年代,人工智能研究的主流變成了知識工程和專家系統,特別是基於規則的專家系統開始成為研究的重點。這時,語義網絡的理論更加完善,特別是基於語義網絡的推理取得不少進展。但是人工智能在當時並沒有取得很大的商業成功,甚至一度進入“人工智能的冬天”。2006年,Hinton在神經網絡的深度學習領域取得突破,是人工智能歷史上標志性的技術進步,人工智能重新回到大家的視野。2012年,Google發布的知識圖譜旨在實現更智能的搜索引擎,2013年以后開始在學術界和業界普及,並在智能問答、情報分析、反欺詐等應用中發揮重要作用。知識圖譜以語義網絡作為理論基礎,並且結合了機器學習,自然語言處理和知識表示和推理的最新成果,在大數據的推動下受到了業界和學術界的廣泛關注。知識圖譜對於解決大數據中文本分析和圖像理解問題發揮重要作用。

2.jpg

知識圖譜和早期的語義網絡相比,主要的進步是:

首先,知識圖譜重點關注實體之間的關聯,以及實體的屬性值,相對早期的語義網絡模型更簡化。簡化的數據模型容易在業界推廣利用,大大降低了知識圖譜的使用門檻。

其次,得益於大數據技術的發展,知識圖譜通過對網絡中數據的自動提取,知識挖掘技術可以快速構建大規模、高質量知識圖譜,而早期語義網絡主要靠人工構建,很難實現大規模的知識庫。

最后,知識圖譜的構建強調不同來源知識的整合和知識清洗技術,而這些不是早期語義網絡關注的重點。不同知識的融合一方面帶來知識的再次爆炸,一方面也能產生新的知識。

二、知識圖譜構建 

構建知識圖譜的數據來源可以是非結構化數據(比如網頁、文檔內容)、半結構化數據(比如一些XML文檔)和結構化數據(比如數據庫中的數據)。這些數據經過知識抽取、知識融合、知識計算,最后統一概念,形成知識存儲起來,供應用層調用。自動化構建知識圖譜的過程本質就是深度機器學習的過程,現在的機器學習技術已經支持自動化的知識圖譜構建,但是還是有很多場景需要人工參與,尤其是一些專業領域的知識圖譜,需要領域專家參與構建。

搭建一個知識圖譜系統的重點不完全在於算法和開發,最重要的核心在於對業務的理解以及對知識圖譜本身的設計。這就類似於一個業務系統,數據庫表的設計尤其關鍵,而且這種設計絕對離不開對業務的深入理解以及對未來業務場景變化的預估。

一個完整的知識圖譜的構建包含以下幾個步驟:

1.定義業務問題。

2.數據的收集和預處理。

3.知識圖譜設計。

4.分析學習數據,構建知識,存儲知識圖譜。

5.上層應用的開發。

下圖列出了構建知識圖譜涉及的相關技術點,可以看到,知識圖譜的構建涉及的技術非常多,每一個技術點都值得深入研究,同時也要和業務進行深入融合,結合業務來設計算法。 

3.jpg

構建完成的知識圖譜目前主要有2種存儲方式,一種是基於RDF的存儲;另一種是基於圖數據庫的存儲。RDF是一種W3C定義的XML格式文檔,易於發布以及共享,一般在學術研究方面應用比較多;圖數據庫則把重點放在了高效的圖查詢和搜索上,一般在實際的產品開發上應用比較廣泛。

三、知識圖譜的主流應用

知識圖譜最早由Google推出,主要用於輔助搜索,提供更有效更准確的關聯結果。知識圖譜適合做深度的關聯分析,深入挖掘節點之間的關系。由於圖計算的引入,知識圖譜在圖形化展示方面特點非常突出。

如果你的業務有如下需求,知識圖譜就是很好的選擇:

1、關系的深入搜索;

2、關系查詢的實時性要求;

3、數據多樣化;

4、強烈的可視化需求。

當前,知識圖譜的主要應用場景包括:

優化搜索和社交網絡等傳統互聯網領域:這也是Google最開始使用知識圖譜的應用場景,通過知識圖譜找到內容關聯的網頁和答案,讓搜索通往答案,給用戶更好的搜索體驗。社交網絡通過構建各個人的關系圖譜,可以挖掘人員之間的社交關系,從而分析每個人的愛好、社交圈、消費層次、娛樂八卦等信息。 

4.jpg

股票金融領域的投資分析:通過知識圖譜相關技術從招股書、年報、公司公告、券商研究報告、新聞等半結構化表格和非結構化文本數據中批量自動抽取公司的股東、子公司、供應商、客戶、合作伙伴、競爭對手等信息,構建出公司的知識圖譜。在某個宏觀經濟事件或者企業相關事件發生的時候,投資研究人員可以通過此圖譜做更深層次的分析和更好的投資決策。 

5.jpg

公安情報分析:通過融合企業和個人銀行資金交易明細、通話、出行、住宿、工商、稅務等信息構建初步的“資金賬戶-人-公司”關聯知識圖譜。同時從案件描述、筆錄等非結構化文本中抽取人(受害人、嫌疑人、報案人)、事、物、組織、卡號、時間、地點等信息,鏈接並補充到原有的知識圖譜中形成一個完整的證據鏈,從而輔助公安刑偵、經偵、銀行進行案件線索偵查和挖掘同伙。 

6.jpg

反欺詐情報分析:通過融合來自不同數據源的信息構成知識圖譜,同時引入領域專家建立業務專家規則。我們通過知識圖譜的一致性檢測,可以識別潛在的欺詐風險。比如借款人張xx和借款人吳x填寫信息為同事,但是兩個人填寫的公司名卻不一樣,以及同一個電話號碼屬於兩個借款人,這些不一致性很可能有欺詐行為。

7.jpg

四、知識圖譜在網絡安全領域的應用

計算機網絡本身就是由多個節點組成的,每一個計算設備和網絡設備連接在一起形成完整的網絡,大到互聯網,小到局域網都剛好符合知識圖譜的本質特征,即多關系有向圖。所以一個計算機網絡是可以構造形成一個知識圖譜,每個計算節點對應知識圖譜中的節點,節點之間的網絡連接對應知識圖譜中的邊。

網絡安全問題一般包括:仿冒身份訪問、提權訪問、否認訪問、竊取數據信息、破壞數據信息或系統完整性、網絡攻擊等。這些安全問題都涉及到網絡節點之間的關系,都需要先建立網絡連接再實施網絡入侵或網絡攻擊。

前面講到,知識圖譜可以用於分析人與人之間的金融欺詐、金融事件帶來的風險評估等,同樣,我們可以利用知識圖譜來檢測識別網絡中的異常和攻擊,並以圖形化的方式展示出來。除了異常和攻擊檢測,結合安全專家的業務知識,把漏洞、攻擊、規避方案融入知識圖譜,可以為安全問題提供可靠的安全指導,或者直接實施規避方案來阻止攻擊或入侵行為。

我們把基於一個網絡構建的知識圖譜成為網絡安全知識圖譜,那么該圖譜包括2部分內容:

1、安全知識圖譜:包括已知漏洞信息、漏洞修補方案、漏洞防護方案、攻擊信息、攻擊阻止方案等。這一部分知識屬於已知的安全知識,可以從各個漏洞網站、攻擊分析網站獲取信息,由安全專家參與構建,並且隨着時間的推移逐步補充內容(新的漏洞和攻擊)。

2、網絡知識圖譜:包括網絡節點信息、網絡拓撲信息、網絡連通信息、網絡運維信息等。這部分知識屬於某個網絡的特有知識,需要針對具體的網絡進行學習構建。數據來源包括資產發現、漏洞掃描、拓撲發現等。

這兩部分共同構成一個網絡安全知識圖譜,我們一般把安全知識圖譜稱為核心圖譜,網絡知識圖譜稱為擴展圖譜。

image008.jpg 

利用網絡安全知識圖譜,結合機器學習算法,可以有效發現一些網絡異常和攻擊,挖掘安全威脅的隱藏關系和路徑,並對攻擊進行預測,從而感知並展示網絡的安全態勢。

比如,下圖中有一個針對資產1的攻擊事件,那么基於該知識圖譜可以做如下分析:

1、收到針對資產1的攻擊事件。

2、攻擊模式匹配,觸發漏洞1。

3、資產漏洞匹配,漏洞1會觸發漏洞2。

4、資產1產生嚴重告警,提示修補方案。

5、相關資產2、資產4產生預告警。

6、如果攻擊蔓延,結合時間序列,就會記錄對應的攻擊路徑。

7、如果啟動自動防御,資產1主機上的主機衛士可以及時阻止自身漏洞相關進程,避免攻擊擴散。

8、資產3、資產5和資產2是單向通信,都沒有風險。 

8.jpg

知識圖譜不僅僅是存儲的一些知識,也包括相關的推理算法,這些算法在網絡安全領域都可以用於安全風險識別和評估,比如:

一致性驗證:這是基於規則的驗證算法,對於已知的規則,通過該算法可以驗證節點和連接的一致性,從而發現異常。

模型學習和判斷:通過對有向圖的分析,可以學習節點之間關系的模型,相同的業務會有相同的圖模型,如果發現模型不一樣,就可能是網絡異常或者攻擊。

強關系挖掘:通過對網絡流量的分析,識別網絡中具有強關系的節點,即平時關系最緊密的節點,在某個節點發生異常告警時,就能准確識別問題的嚴重性,並對后續影響進行評估。

動態網絡分析:基於網絡圖譜連接的變化,及時識別異常連接,判斷安全風險。

五、網絡安全知識圖譜總結 

通過在網絡安全領域引入知識圖譜技術,有如下優勢:

1、快速應用:引入安全知識圖譜,避免了傳統機器學習的海量數據集的訓練過程,系統部署后快速生效,進入安全防護狀態。

2、准確識別:基於機器學習算法+安全知識圖譜,相當於引入安全專家,可以精准識別潛在的威脅(包括已知和未知),准確評估威脅的影響。

3、安全可視化:基於安全知識圖譜,以有向圖的形式展示安全威脅及其攻擊路徑。

4、智能決策:知識圖譜不僅能感知檢測異常,還可以預測和主動防御。結合安全知識圖譜,就可以給出解決方案,或者直接采取行動。

幾年前,微軟在Azure雲上引入了知識圖譜進行安全檢測防護,實踐證明,通過引入網絡安全知識圖譜,可以更迅速、更准確、更有效的檢測異常攻擊。 

image010.jpg

威努特在2018年憑借“基於人工智能的工控安全態勢感知平台”,獲得中關村國際前沿科技創新大賽的大數據和信息安全領域的Top 10,其中就是采用知識圖譜技術識別網絡安全問題,分析安全態勢,達到態勢感知、態勢預測和安全防御的效果。該平台的整體結構圖如下所示:

11.jpg


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM