研一上學期告一段落,在這一學期中我的主要研究方向就是社交網絡影響力最大化,今天在這里做一個總結。主要分為以下幾個模塊。
- 相關概念講解
- 目前的研究現狀以及經典論文的講解
- 本人實驗室的相關工作
1. 相關概念
1.1 什么是社交網絡影響力最大化?
社交網絡歸根結底就是一個圖G(V,E,P),V是節點集,E是邊集,P是所有邊的概率集。一個用戶就是一個節點v,用戶與用戶之間的關系就是邊e,每條邊都有一條概率p,信息會在圖上按照邊的概率進行傳播。影響力最大化問題現在主要分為兩種:其一是給定節點數k,選擇出k個節點作為種子集使得種子集能影響的節點數最多;其二是給定所要求產生的影響力,找到滿足條件的最小節點集合。
1.2 作用
影響力最大化的應用場景十分豐富,包括病毒營銷,推薦系統,信息擴散,時間探測,專家發現,鏈接預測等。我拿病毒營銷舉個例子,比如某一公司想要推廣自家商品,希望通過病毒式營銷手段,先選擇少部分人讓其免費試用所需推廣的商品,當選中的用戶(種子節點)對商品滿意時便要通過網絡向自己的同事朋友推薦該商品,使得更多的人了解並最終購買該商品。應該如何找出這部分人來試用商品能夠使得最終購買商品的人數最多就是公司所需要考慮的最核心的問題。
1.3 傳播模型
最經典的兩種模型分別是:獨立級聯(IC)模型和線性閾值(LT)模型。這也是一般論文實驗中會使用的兩種模型。
1.3.1 獨立級聯(IC)模型
IC模型假設每條邊e∈E並且與概率p(e)∈[0,1]相關聯。對於任何節點u和其任何輸出鄰居v,u是在離散時刻 i 處被激活的節點,則v具有p(<u,v>)的概率在時間戳 i + 1 處被激活。換句話說,在u被激活之前,u是否可以激活v與擴散歷史無關,因此,節點激活的順序不會影響擴散結果。對於這樣的模型,種子集S的擴散過程如下:
通俗些講,就是每個新激活的節點都能按照邊的概率獨立地去激活與其相鄰的節點。
1.3.2 線性閾值(LT)模型
在線性閾值模型下,每個節點v包含從間隔[0,1]中隨機均勻選擇的激活閾值θv。 此外,LT規定所有進入邊緣權重的總和最多為1,其它的進入節點對它的影響是累加的,當影響超過閾值時,該節點被激活。
2. 目前的研究現狀以及經典論文的講解
2.1 研究現狀
該問題最早是由Domimgos 和 Richardson 等人提出,他們把問題建模為馬爾科夫隨機場,采用啟發式算法解決該問題。Kempe et al等人2003年在論文Maximizing the spread of influence through a social network中設計了一個貪婪算法,算法從空的種子集開始,並迭代地添加相對於當前種子集具有最大邊際增益的節點,這個貪婪算法在種子集的質量上具有嚴格的保證,對后面的研究具有十分重要的啟發意義。該算法簡單易懂並且具有 $1-\frac{1}{e}-\epsilon$ 的近似保證,但是在時間上確並不令人滿意,往往需要幾天的時間,對於如今龐大的社交網絡更是難以適應。
這篇文章先寫到這里,我將在下一篇博客中接着介紹近年來最受認可的幾種能夠在大型社交網絡上運行的影響力最大化算法。