【論文筆記】社交網絡中的信息擴散分析及其應用研究


Study on Information Diffusion Analysis in Social Networks and Its Applications

社交網絡中的信息擴散分析及其應用研究

給出了本文的概述。第2節介紹一些社交網絡。第3節介紹了三種基本的信息傳播模型。第4節中列出用於評估權限和影響的方法。第5節和第6節分別介紹了影響最大化和信息源檢測的解決方案。最后,在第7節中總結了一些進一步研究的可能方向。

下圖是論文框架

1 介紹

由於社交網絡服務的普及,人們越來越關注探索信息如何在這些網絡中傳播以及用戶之間如何相互影響,這種應用具有廣泛的應用,例如病毒式營銷,重新發布預測和社交推薦。 因此,在本文中,我們回顧了社交網絡中信息擴散分析的最新進展及其應用。 具體來說,我們首先闡明幾種流行的模型來描述社交網絡中的信息傳播過程,這可以實現三種實際應用,即影響評估,影響最大化和信息源檢測。 然后,我們討論了如何基於網絡結構評估權限和影響。 之后,分別詳細討論影響最大化和信息源檢測的當前解決方案。 最后,列出了一些可能的信息擴散分析研究方向,以供進一步研究。

這些社交網絡具有開放性(即每個人都可以加入並與外界保持聯系),交互作用(即用戶可以通過回覆或重新發布來與朋友就電影或事故進行互動)的特征,以及 及時性(即用戶可以隨時更新狀態消息)

口碑效應:用戶看到有趣的內容后,就可以將這些內容轉發或轉發給他們的朋友。 如果他們的朋友也喜歡這些內容,則可以進一步與他們自己的朋友分享這些內容,從而導致信息在網絡中傳播

信息如何通過網絡傳播通常是未知的。 了解大量信息背后的傳播機制對於廣泛的應用非常重要,例如病毒式營銷,社會行為預測,社會推薦和社區檢測。這個問題吸引了來自流行病學,計算機科學和社會學等各個領域的研究人員。 他們提出了各種信息擴散模型來描述和模擬此過程,例如獨立級聯(IC)模型,線性閾值(LT)模型和流行病模型。大多數模型具有傳染性,並假定信息開始從源(或種子)節點集中傳播,其他節點只能從其鄰居訪問信息。

發現的傳播模型已被應用於許多實際應用中。 例如,首先,通過評估用戶的影響力,我們可以確定有影響力的傳播者,並找到專家。 其次,通過選擇種子用戶並解決所謂的影響最大化問題,我們可以最大化受影響用戶的數量。 這對於通過口碑效應推廣新產品,或放置傳感器以快速檢測城市供水網絡中的污染物具有重要意義。 第三,在信息從一組源節點傳播了一段時間之后,它將影響更多的節點。 我們可以根據這些觀察到的受影響節點來推斷源節點,這稱為信息源檢測。 它可以幫助防止流行病的爆發,並追蹤社交網絡中的謠言來源。

 

2.准備工作

微博網絡:

引文網絡:

協作網絡:

電子郵件網絡:

不同種類的信息可以在社交網絡中傳播,例如創新,對特定事件的看法。當節點采用此類信息,則會受到影響,受影響的節點將進一步將該信息傳播到其鄰居,即口碑效應,這將導致信息在網絡中擴散。因此,除了具體說明之外,每個節點都具有兩個狀態:活動和非活動。例如,在Twitter中,重新發布有趣推文的用戶處於活動狀態,而其他用戶則處於非活動狀態。

有許多網站提供開放的社交網絡數據集進行研究。 在這里,我們列出其中一些以方便參考。

Stanford large network dataset collection。 它是從數以萬計的節點和邊緣到數以千萬計的節點和邊緣的50多個大型網絡數據集的集合,包括社交網絡,Web圖形,道路網絡,Internet網絡,引用網絡,協作網絡和通信網絡 。

Aminer6。 它提供了用於社交網絡分析的外部數據集的存儲庫,包括微博網絡,Patentminer.org的專利數據集,知識鏈接數據集,移動數據集和其他在線社交網絡。

Social computing data repository。 它托管來自許多不同社交媒體站點的數據集,其中大多數具有博客功能,例如BlogCatalog,Twitter,MyBlogLog,Digg,StumbleUpon,del.icio.us,MySpace,LiveJournal,非官方Apple Weblog(TUAW),Reddit 等

Koblenz Network Collection (KONECT)。 是一個收集大型網絡數據集以進行網絡科學及相關領域研究的項目。 它包括數百個各種類型的網絡數據集,包括有向,無向,兩方,加權,未加權,有符號和評級網絡。

 

3 信息傳播模型

許多研究者從各個領域研究信息在網絡中的傳播過程,它們大多具有傳染性並且通常遵循以下兩個原則:

1)每條信息的擴散都始於幾個源節點。

2)每個傳播者只能從其鄰居那里訪問該信息。

所有信息傳播模型都與規則2一致,但是以不同的方式實現規則2。它們可以分為兩類:漸進模型(progressive models),其中節點可以從非活動狀態切換為活動狀態,但不能在另一個方向上進行切換; 非漸進模型(progressive models),其中節點可以在兩個方向進行轉換,並允許多次。在下一部分中,我們將介紹三種基本的信息傳播模型,即獨立級聯(IC)模型,線性閾值(LT)模型和流行模型,這些模型已被廣泛使用,並且對於個人影響力評估,影響力最大化等至關重要。

3.1 獨立級聯模型(IC)

它假定信息從遵循規則1的一組活動種子節點$A_{0}$開始。對於病毒式營銷,$A_{0}$是擁有折扣並願意在其朋友中促銷產品的一群用戶。在該模型中,每個活動節點無法切換回非活動狀態。隨着時間的流逝,非活動節點可以從活動節點接收信息。在時刻t,$A_{t}$是一組處於活動狀態的節點,對於$A_{t}$中的一個節點u,它只有一次機會以概率$w_{uv}$去影響非活動狀態的鄰居節點v。如果節點v成功被激活為活動狀態,節點v將在下一個時刻t+1時以相同的方式去影響其他節點;如果節點v有不止一個處於活動狀態的鄰居節點,那么這些鄰居節點對節點v的影響是相互獨立的,這解釋了獨立級聯模型是如何遵循規則2的。這個過程將一直進行,直到沒有更多的節點被激活為止。

獨立級聯模型是漸進隨機的,所以最終處於活動狀態的節點集合$A_{\infty }$可能會隨活動種子節點的選擇不同而不同。

3.2 線性閾值模型(LT)

假設每個節點v都有一個特定的閾值$\theta _{v}$,該閾值從間隔[0,1] 中均勻采樣,且$\sum _{u\in V}w_{uv}\leq 1$。

同樣假定信息從遵循規則1的一組活動種子節點$A_{0}$開始,它的傳播過程是以離散的步驟進行的。在第t步,上一步中處於活動狀態的節點將保持活動狀態,對於非活動節點v,如果下式成立,則被激活(1):

$\sum _{u\in N_{in}(v))}w_{uv}\geq \theta _{v}$

這個過程也將一直進行,直到沒有更多的節點被激活為止。我們可以看到不活動的節點變為活動狀態的概率隨着其更多鄰居變得活動而單調增加。而且,v的閾值可以視為v的鄰居的加權分數。

LT和IC的區別在於:LT允許活動節點多次影響非活動節點,而IC只有一次機會;LT讓父節點對子節點的作用是加權的,而在IC中作用是獨立的。

3.3 傳染病模型

一些研究人員采用流行病模型來模擬網絡中節點的感染和恢復過程,最初是在流行病學中描述疾病如何在人群中傳播。同上,假定信息/傳染病從遵循規則1的一組活動種子節點$A_{0}$開始。

最簡單的是susceptible-infected(SI)模型,它假定每個節點都有兩種可能的狀態:易感(susceptible)和感染(infected)。 當節點處於易感狀態時,它可能會被信息感染。一旦節點u受感染,那么它將永遠保持感染的狀態,並且以它只有一次機會以概率$w_{uv}$去影響易感狀態的鄰居節點v,這種傳播過程是獨立的。

susceptible-infected-susceptible (SIS)模型和SI類似,不同的是它認為感染的節點u將以概率$\gamma _{u}$回到易感狀態。
Susceptible-infected-recovered (SIR)模型與SI大體相同,但是它假設節點有三種狀態:易感,感染和康復。它認為感染的節點u將以概率$\gamma _{u}$恢復健康並對疾病免疫,這意味着節點u從此不會再感染,其他部分與SI相同。
recovered-susceptible (SIRS)擴展了SIR模型,它假設感染的節點u將以概率$\gamma _{u}$恢復健康后,還會以概率$\lambda _{u}$再一次變為易感狀態。

 

 

4 權威和影響力評估

權威(authority)和影響力(influence)評估,對識別有影響力的傳播者(influential spreader identification)和發現專家(expert finding)很重要。乍一看,用戶的影響力和權限似乎有所不同,因為“影響力”是通過外部鏈接(例如,說服他們購買產品)來衡量其對他人的影響,而“權限”是得到其追隨者的認可。但是,有些作品著作意識到它們之間有着密切的關系,因為一個人通過影響他人而獲得了權威。

4.1 權威評估

本節介紹利用網絡結構(基於中心性和PageRank)來解決權威評估問題。

4.1.1 基於中心性

計算一個節點的中心性,其值越大就意味着節點的影響力越大。

方法一:最簡單的方法是用度計算,即節點的鏈接數。對於有向圖,要區分入度(indegree)和出度(outdegree),入度是衡量節點的合群性,出度衡量節點作為信息發送者的重要性,也就是說,入度越大,說明節點和其他節點關系更近;出度越大,說明該節點可以影響更多的節點。對於度計算方法,它認為連接更多的節點更有影響力。

方法二:實際上,節點的影響應由其鄰居確定。特征向量中心性提供了另一種方法來測量個體的影響力。

A是一個連接矩陣,若存在從節點u到節點v的連接,則元素$a_{uv}=1$,否則為0。u的特征向量中心由下式確定(2):

$c_{e}\left ( u \right )=\frac{1}{\lambda }\sum _{v\in V}a_{v,u}c_{e}\left ( v \right )$

方法三:計算節點之間的距離,有三:closeness中心性$c_{c}\left ( u \right )$和betweenness中心性($c_{b}\left ( u \right )$),Jordan中心性($c_{j}\left ( u \right )$)

緊密度中心性定義為u與其他節點之間的平均最短距離的倒數(4):

$c_{c}\left ( u \right )=\frac{1}{\sum _{v\in V}d\left ( u,v \right )}$

其中距離$d\left ( u,v \right )$由由沿路徑的拓撲距離或權重計算。

中間性中心度計算通過u的最短路徑的數量(5):

$c_{b}\left ( u \right )=\sum _{s\neq u\neq t\in V}\frac{\sigma _{st}\left ( u \right )}{\sigma _{st}}$

其中,$\sigma _{st}$表示s和t之間最短路徑的數量;$\sigma _{st}\left ( u \right )$表示s和t之間通過u的最短路徑的數量。

Jordan中心性定義為u與其他節點之間的最大距離的倒數(6):

$c_{j}\left ( u \right )=\frac{1}{max\left \{ d\left ( u,v \right )\mid v\in V \right \}}$

請注意,親密性和Jordan中心性假定權威節點可以將信息盡快發送給其他節點,而中間性中心性則表明節點在作為樞紐連接其他節點方面的重要性。

4.1.2 PageRank

PageRank 最初用於評估網頁的權威,並且是Google搜索引擎的基石。 它也是上述正常特征向量中心性的擴展。

PageRank值為:$x=\begin{pmatrix}
x\left ( v_{1} \right ) & x\left ( v_{2} \right ) & ... & x\left ( v_{n} \right )
\end{pmatrix}^{T}$

在網絡中可被定義如下(7):

$x=dWx+\frac{1-d}{n}e$

其中,d是一個衰減因子,e為全為1的列向量,n是節點數。

random surfer模型可以用來解釋PageRank,假定一個用戶從一個網頁出發,任意點擊鏈接,直到最終停留在一個令用戶喜愛的頁面。當d=1,x成了在過度矩陣W下的平穩分布,W刻畫可任意點擊這個過程。但是在實際情況下,許多頁面沒有出站鏈接或處於一小段網頁中,因此用戶將被卡住。 為了克服這個問題,設定用戶可以隨機打開新頁面並繼續沖浪。 (7)右邊的第二項說明了此策略:當用戶被卡住,他將點擊概率為1/n的頁面。
Haveliwala 對上式考慮了更多的個性化,提出了一個對主題敏感的PageRank。即將標准向量e替換為非標准列向量q,如果是基於某個特定第i個主題,那么q的第i個位置上元素為1,其余為0。Kleinberg設計了一個近似的算法HITS,它同時計算子圖中的權威權重和集線器權重。此外,wen等人提出了TwitterRank(PageRank的擴展)來衡量用戶在Twitter中的影響力,它考慮了用戶之間的主題相似性和鏈接結構來以衡量影響力。
由於其簡單性和有效性,PageRank已被用於完成許多任務,例如有影響力的傳播者的識別和社交網絡中的鏈接預測,項目推薦和專家發現。

4.2 影響力評估

人的影響力可以被認定為影響他人的能力。Kempe提出集合A中某個節點的影響力為在影響過程結束后被激活節點的期望數量,A是最初的處於活動狀態下的節點的集合。

4.2.1 蒙特卡洛模擬

Kempe提出用蒙特卡洛方法來估計IC模型或LC模型中的影響力。具體步驟如下:

在IC或LC模型下,我們在網絡中從集合A出發傳播一組信息,並記錄傳播過程結束后被激活節點的數量,那么A的影響力可以由下式計算(8):

$f\left ( A \right )=\frac{1}{R}\sum _{v\in V}\delta \left ( v \right )$

其中R是蒙特卡洛模擬次數,$\delta \left ( v \right )$是一個指示符,如果指示符為1,證明節點v被激活,否則為0;每一次蒙特卡洛模擬都是相互獨立的,所以確保了只要R足夠大,(8)就會收斂到一個真實值。但是對於大型網絡來說這個方法相當耗時,所以作者把它作為計算影響力擴散的未解決問題。

4.2.2 近似方法

chen在研究中發現:給定節點集合A,計算其影響力的時間復雜度是多項式(p-hard),因此,一些研究人員嘗試設計近似方法來估計影響的傳播。Aggarwal等人 提出了一種方法SteadyState Spread,以確定給定起始節點A的預期信息擴散。他們首次計算了平穩分布$\pi \left ( i \right )$,其中節點i通過求解以下非線性方程組來吸收信息(9):

$\pi \left ( i \right )=\begin{cases}
1 & \text{ if } i \in A\\
1-\prod _{j\in V}\left ( 1-w_{ji}\pi \left ( j \right ) \right ) & \text{ if } otherwise
\end{cases}$

這意味着為了讓節點i吸收信息,它必須從其至少一個鄰居接收信息。 然后,所有節點的穩態同化概率之和可以達到所需的影響范圍。

Yang等人提出,(9)的適用范圍不廣,當網絡存在缺陷的時候不適用,並且非線性方程組不好求解。他們舉出一個觀察現象,說明影響傳播概率( influence propagation probabilities)在現實世界中通常都很小。然后,他們定義線性系統表示穩態概率近似值(10):

$\pi \left ( i \right )=\sum _{j\in V}w_{ji}\pi \left ( j \right )$

上式與(2)式很相似,這表明影響力和權威應該具有潛在的關系。

 但是,在許多情況下,發生擴散的網絡實際上是隱性的,甚至是未知的。例如,在病毒式營銷環境中,我們僅觀察到人們在購買產品時並未明確知道誰是導致購買的影響者。因此,Yang和Leskovec 研究了隱式網絡中建模信息的擴散。 他們專注於對節點對通過(隱式)網絡的擴散速率隨時間的全局影響進行建模。每個節點u都有一個特定的非負影響函數$I_{u}\left ( l \right )$,可以將其視為節點u接收到信息后,l個時間單位中節點u的后續提及次數。$V\left ( t \right )$用來表示在時刻t提及信息的節點數,具體公式如下(11):

$V\left ( t \right )=\sum _{u\in A\left ( t \right )}I_{u}\left ( t-t_{u} \right )$

其中$A\left ( t \right )$表示在時間t之前已激活的一組已經激活的節點。他們提出了一種非參數方法來實現影響函數。

4.2.3 先驗PageRank

Xiang等人從影響傳播的角度進一步理解了PageRank,以探索權威與影響之間的關系。 具體來說,他們首先提出了線性社會影響力計算模型,如下:

定義1:定義從節點i到節點j的影響為$f_{i\rightarrow j}$,有:

(12):$f_{i\rightarrow i}=\alpha _{i}$,$\alpha _{i}> 0$

(13):$f_{i\rightarrow j}=\frac{1}{1+\lambda _{j}}\sum _{1\leq k\leq n}w_{kj}f_{i\rightarrow k}$,$j\neq i$

其中$\alpha _{i}$是先驗概率值,$\lambda _{j}$是一個大於0的阻尼因子。等式(13)表明,從節點i到j的影響,與i對j的鄰居的影響的線性組合成比例。如果節點i想要影響節點j,那么節點i先要經過節點k,並且節點k以一定的概率影響節點j,$\alpha _{i}$可以認為是傳播信息過程中節點i的先驗概率。$\lambda _{j}$指示節點j將阻止多少影響。

作者注意到,PageRank實際上是定義1中具有適當優先級的線性社會影響模型的特例。這表明在社會影響力相關應用程序中以PageRank為基准是合理的。

4.2.4 獨立的社會影響

實際上,不同節點的影響力有可能重疊。 例如,在社交網絡中,用戶u和用戶v是相鄰的,並且用戶u是最有影響力的用戶之一。 若u成功影響v,則v可以在u的幫助下影響更多其他人,因此觀察到的v的影響力遠大於其實際值。 liu等人嘗試根據定義1中的線性模型計算獨立的社會影響力(independent social influence)。他們引入了以下獨立社會影響力的定義:

定義2:$i\in S$,定義從節點i到節點j的影響力為$f_{i\rightarrow j}^{S\setminus i}$,節點j獨立於S集合中的任何一個節點

(14):$f_{i\rightarrow i}^{S\setminus i}=1$

(15):$f_{i\rightarrow j}^{S\setminus i}=0,j\in S\setminus i$

(16):$f_{i\rightarrow j}^{S\setminus i}=d\sum _{1\leq k\leq n}w_{kj}f_{i\rightarrow k},j\notin S$

 其中d是一個阻尼因子。當從擴散中“刪除” S中的其他節點時,$f_{i\rightarrow j}^{S\setminus i}$本質上是網絡中節點i的影響力。

因此,從S中“已刪除”的節點將停止從節點i接收和轉發信息。作者發現所提出的獨立影響具有兩個有趣的特性:1)一組節點的影響實際上是每個節點獨立影響的總和。 2)某人的獨立影響有一個上限。 基於這兩個屬性,演示了兩個實際應用:根據種子的獨立影響對種子進行排名,以找出每個選定種子的貢獻,並從種子節點S中快速找到前K個有影響力的節點。

4.2.5 Group PageRank

定義3:定義a節點集合S到節點j的影響力為$f_{S\rightarrow j}$

(17):$f_{S\rightarrow j}=0,j\in S$

(18):$f_{S\rightarrow j}=d\sum _{1\leq k\leq n}w_{kj}f_{S\rightarrow k},j\notin S$

他們發現從集合S到集合T的影響力$f_{S\rightarrow T}=\sum _{i\in T}f_{S\rightarrow i}$有一個上限GPR(S,T),稱為Group PageRank:

(19):$f_{S\rightarrow T}\leq \frac{\left | T \right |}{1-d}\sum _{i\in S}\left ( 1-d\sum_{k\in S}t_{ki} \right )fPR_{i}= GPR\left ( S,T \right )$

其中,$fPR_{i}$是節點i的PageRank value,可由式(7)計算。很難獲得准確的影響值,因此提出了許多近似方法來簡化計算過程並提高效率。

 

5 影響力最大化(IM)

如何基於信息擴散模型和影響力評估來解決影響力最大化問題。該問題選擇一組種子節點,以在擴散過程結束時,能夠最大化活動節點的預期數量。理查森(Richardson)和多明戈斯(Domingoes)在為病毒式營銷開發知識共享站點時首先注意到了這一點。 然后,Kempe等人[4]將其公式化為以下離散優化問題。

問題 1 (Influence manimization):

在社交網絡G(V,E)中,選擇一組大小為K的種子節點集合S:$S=argmax_{S\subset V}f\left ( S \right )$,其中$f\left ( S \right )$為集合S的影響力。

有兩種直觀的解決方案:一種是枚舉並選擇影響范圍最大的子集。 這將導致組合爆炸,不適用於大型網絡。 另一個是選擇影響力最大的前K個節點,但不同的個體影響可能會相互重疊,因此它們的集體影響力不是最大的。 Kempe等人[4] 他說,在獨立級聯(IC)模型和線性閾值(LT)模型下,影響最大化是NP-hard的。 因此,由於其廣泛的應用,許多研究者都在關注這個問題,並提出了各種近似方法來加快求解速度,可以將其分為四類:貪婪,啟發式,反向采樣和其他算法。

5.1 貪婪算法

Kempe等人注意到在IC和LT模型下的影響擴散函數f,是單調函數和次模函數。

單調和次模:

設Sapp為一組大小k,通過一次選擇一個元素獲得,從而提供函數值的最大邊際增加。 令Sopt為在所有k個元素集上最大化f值的最優集。 Nemhauser等人已經表明上式(20)

算法1:貪心算法框架

該算法每一次將一個能夠使得集合S的邊際影響力最大的節點u添加到集合S中,直到S中由K個節點為止。

 邊際影響:

 這個算法證明了只要集合函數(set function)f有單調和次模性,它就可以以(1-1/e)的比率來近似影響力。

貪心算法的瓶頸在於如何計算種子集合的影響力f,采用蒙特卡洛需要多次計算,因此該種方法消耗時間長不適用於大型網絡。

5.1.1 lazy evaluation

Leskovec等人利用次模量來避免在每次迭代中對邊際影響增益進行不必要的重新計算,並開發了一種有效的算法,即具有成本效益的惰性前向(Cost-effective lazy forward)(CELF)選擇。 基於收益遞減特性,將節點越早選擇到種子集中,它可以實現的邊際影響增益就越大。

(21):$\Delta _{u}S_{k}\geq \Delta _{u}S_{k+1}$

算法2:

該算法的基於的事實為:將每個待添加節點的邊際影響增益添加至Q中,並且按增益大小倒敘排列。對於空集S,首先添加增益最大的節點u,即Q中的第一個元素,添加至K后從Q中刪除第一個元素。然后對於Q中剩余其他節點,首先計算Q新第一個節點的邊際影響值,根據邊際影響值對這個新第一個節點在Q中重新排序,若它還是第一個節點,則添加它至K中,再從Q中刪除;若它再次排序后不再是第一個節點,那么就尋找Q中此時的第一個節點繼續計算新邊際效益,排列,比較。也就是說,這種算法,不需要每一次都計算所有節點的最大邊際影響增益,它比算法1速度快了700倍。

5.2 啟發式算法

盡管上述方法利用惰性評估來加快貪婪算法的速度,但它們在大規模網絡上的運行時間仍然很高,因此,許多研究人員開始開發啟發式算法,以根據擴散模型的特定的屬性進一步提高影響力傳播評估的效率。

5.2.1 最短路徑(SPM)

Kimura和Saito提出了兩種模型,即最短路徑模型(SPM)和最短路徑1模型(SP1M)以簡化IC模型, 當通過鏈接的傳播概率較小時,這兩種模型可以有效地獲得影響最大化問題的良好近似解。 在SPM中,每個節點v僅在步驟$t= d\left ( S,v \right )$有機會變為活動狀態,其中$d\left ( S,v \right )$是從S到v的拓撲距離,這意味着每個節點僅通過距初始活動集S的最短路徑才可能得到激活。SPM是IC模型的一種特殊類型,其中只有最有效的信息才能傳播。而在SP1M中,每個節點v僅在步驟$t= d\left ( S,v \right )$和步驟$t= d\left ( S,v \right )+1$時有機會變為活動狀態。

如果這兩種模型采用貪婪算法可以保證以比率(1-1/e)的概率得到影響值。但是缺點是他們忽略用戶之間的影響概率,僅考慮拓撲結構。

5.2.2 DegreeDiscount啟發式

如果節點v的鄰居節點存在節點u,u被選為初始活躍節點,由於兩者的影響力存在重疊,則需要對節點v的度數進行度量折扣。

Chen等選擇種子節點時,探索了所選種子節點對其余節點的影響,他們采用節點度(degree)來估計其影響,並提出了兩度折扣啟發法來減小這種影響。
1)SingleDiscount:新選擇的種子的每個鄰居將其度數減一。 這種啟發式方法可以應用於所有信息傳播模型。
2)DegreeDiscountIC:對於傳播概率為p的IC模型,這是一種更准確的度數折扣啟發法,在選擇v添加進種子集合時,期望的活動節點數為:

(22):$1+\left ( d_{v}-2t_{v}-\left ( d_{v}-t_{v} \right )t_{v}p+o\left ( t_{v} \right ) \right )p$

 $d_{v}$是v的度,$t_{v}$是v的鄰居節點數量減去已處於激活狀態的鄰居節點,$t_{v}$越大,$d_{v}$的折扣就越大。

5.2.3 最大影響路徑(MIP)

Chen等通過考慮最大影響路徑(MIP)而不是最短路徑來擴展SPM和SP1M,以近似社交網絡中的實際預期影響。其主要思想是使用每個節點的局部樹狀結構來近似影響傳播。

最大影響路徑:節點u和v之間的最大影響路徑是從u到v具有最大傳播概率的路徑。

MIA和PMIA:他們首先通過Dijkstra最短路徑算法計算網絡中每一對節點之間的最大影響路徑,設定一個閾值,如果傳播概率小於閾值,那么就忽略這條路徑,這種做法可以有效地將影響限制在局部區域。 然后他們將在每個節點的開始或結束的最大影響路徑聚集到樹狀結構中,代表每個節點的局部影響區域,設定不同的閾值會得到不同的局部影響的大小,這種方法又叫maximum influence arborescence (MIA) 。這種方法因為閾值是可調的,所以可以在效率(運行時間)和有效性(影響力)之間尋求可調的平衡。當圖比較稀疏並且邊緣上的傳播概率較小時,為了提高效率,提出了MIA的變體,稱為前綴MIA(prefix excluding MIA)(PMIA),並進行批量更新。PMIA在選擇下一個種子時,每個待選節點都要有一條通向S中的節點v的路徑,重新計算節點v的最大影響路徑,而且這條路徑不能經過任何除了v以外的種子節點。最后的結果是,每個已選擇的種子節點,都會有一條有序路徑,使得種子節點與非種子節點連接,這些路徑,不會經過S中排在前面的種子節點而到達非種子節點。MIA和PMIA已經被證明是次模和單調的,所以可以使用貪心算法,結果會以比率(1-1/e)近似估計這個問題。在多個現實世界和綜合網絡上進行的廣泛仿真結果表明,他們的算法是當時影響力最大化問題的最佳可擴展解決方案

IRIE:后期基於PMIA許多研究者提出了許多算法,此處略。在選擇種子節點的每一輪中,貪心算法均使用Monte Carlo模擬,而PMIA使用更有效的基於局部樹狀結構的啟發式方法來估計每個可能候選對象的影響范圍。但是對於需要估算每個節點影響范圍的第一輪來說,這特別慢。因此,Jung等人[22] 提出了一種從信念傳播方法派生的新穎的全局影響力排序(IR)方法,該方法使用少量迭代來生成節點的全局影響力排序,然后選擇排名最高的節點作為第一種子。為了避免重疊影響,他們將IR與簡單的影響估計(IE)方法集成在一起,以便在選擇一個種子之后,他們可以估計該種子對網絡中其他節點的額外影響,然后使用結果進行調整下一輪影響力排名計算。IE比直接估計許多候選種子的邊際影響增益要快得多,當將IR和IE結合在一起時,我們獲得了快速的IRIE算法。

LDAG和SIMPATH是為LT模型專用的。

LDAG:利用以下事實,即可以在線性時間內完成有向無環圖(DAG)中的計算影響擴散。 它圍繞網絡中的每個節點v構造一個本地DAG,並將影響限制在本地DAG結構內。 這使得影響力的計算在小型DAG上易於處理且快速。 然后,作者將貪心算法與快速方案結合起來,該方案可更新每個節點的增量影響范圍。
SIMPATH:可以在LT模型下,在適當的子圖上,將一組節點的影響計算為該集中每個節點的影響之和。 它可以像CELF這樣的惰性向前迭代地選擇種子,而不是使用昂貴的MC模擬來估算傳播,而是可以通過枚舉從小范圍內的種子節點開始的簡單路徑來計算它,而由於路徑的概率隨着時間的增加而迅速減小,因此大部分影響流會逐漸減少。

通常,這些啟發式算法通過特定擴散模型的屬性對大型網絡更有效,但是很少有標准IC和LT模型那樣得到保證。

5.3 Reverse sampling algorithms 反向采樣算法

最近,Borgs等人取得了理論上的突破,並啟發了研究人員從完全不同的反向采樣角度解決影響最大化問題,該方法具有近似保證,並且比上述啟發式算法更有效。

定義7(反向可達集合):對於圖G中的邊e,以概率$1-w_{e}$移除,得到圖g。對於圖g中為節點v設置的反向可達集合(RR)是g中可以達到v的節點集合,即,對於RR集合中的每個節點u,g中都有從u到v的直接路徑。

定義8(任意反向可達集合):是從RR中隨機采樣生成的。

博格斯等人在IC模型下提出了一種反向影響抽樣(RIS)方法。 它分兩個步驟運行:
1)從G生成一定數量的隨機RR集。
2)使用標准貪婪算法解決最大覆蓋問題,選擇k個節點覆蓋生成的最大RR集數量。

它的主要思想是,如果一個節點u出現在大量的RR集中,那么在IC模型下它應該很有可能激活許多其他節點。u的影響力傳播應該很大。RIS相比其他算法可以以更高的概率得到影響最大化的結果,但是,RIS的時間復雜度具有很大的隱含常數,因此其實際效率不能令人滿意。

Tang等借鑒了RIS的思想,並提出了兩階段影響最大化(TIM)算法:它首先計算在所有大小為k的節點集之間的最大預期影響分布的下界,然后使用該下界導出參數,然后從G中對隨機RR集進行采樣,並得出大小為k的節點集,這些節點涵蓋了大量的RR集,例如RIS。

TIM +通過添加一個中間步驟來改進TIM,該中間步驟改進為更嚴格的下限。

5.4 其他算法

1)首先,現在評估在整個網絡上傳播的影響力是很費時的,我們可以只在社區級別(community-level)處理它嗎? 社區是節點的密集連接子集,僅與其余網絡稀疏鏈接,就是一群相互之間緊密連接,但與其他子集距離較遠的子集。 Wang等[77] 注意到了這個想法,並提出了一種基於社區的貪婪算法(CGA),用於遵循分而治之的原則來挖掘移動社交網絡中的前K個有影響力的節點。具體地說,他們首先擴展了一種社區檢測方法以使其能夠划分社區,然后根據信息傳播模型將網絡連接到社區。他們提出了一種動態編程方法,以逐步選擇要處理的社區。在社區內,我們可以采用任何現有算法來檢測有影響力的節點,例如PageRank和CELF。

2)其次,王等人注意到影響最大化找到了一些影響力節點,其影響力可以覆蓋整個網絡,這類似於選擇一些信息行來重建矩陣。因此,他們從數據重建的角度提出了一種新穎的框架,稱為影響力最大化數據重建(DRIM)。他們首先建造了一個影響矩陣,其每一行是一個節點對其他節點的影響。他們沒有使用費時的蒙特卡洛模擬來估計影響范圍,而是轉向定義1中的線性社會影響模型,該模型為我們提供了每個節點的影響的封閉式解決方案。然后,他們選擇信息量最大的k行來重構矩陣,並且它們對應的節點是可以最大程度地擴大影響范圍的種子節點。實驗結果表明,該框架至少與傳統貪婪算法一樣有效。但是,該框架沒有性能保證,並且時間復雜度太高。

3)江等提出了一種完全不同的基於模擬退火(SA)的方法來解決影響最大化問題。 模擬退火模擬了金屬退火的過程,並優化了許多NP難題的解決方案。 隨着迭代次數的增加,針對影響最大化問題的基於SA的算法將趨於最優。 SA可以擺脫局部最優,並且能夠學習自動提高解決方案集的影響范圍。 他們還設計了兩種啟發式方法來加速SA的收斂過程,並設計了一種計算影響力的新方法以加快所提出算法的速度。

4)最后,用戶的影響和網絡結構會隨着時間而動態變化,先前的工作僅在靜態網絡中完成。 Rodriguez和Schölkopf關注連續時間傳播網絡中的影響最大化。他們描述了連續的時間馬爾可夫鏈如何使我們能夠分析性地計算從種子節點集中開始的擴散過程達到的平均節點總數。他們還表明,在連續時間影響最大​​化問題中選擇一組最具影響力的源節點是NP的,並開發了一種具有可證明的近最佳性能的有效近似算法。Wang 研究了動態社交網絡的增量影響最大化,他們為線性閾值模型設計了一種增量算法,即動態影響最大化(DIM)。它包括兩個階段:初始播種和種子更新。他們還為種子更新階段提出了兩種修剪策略,以進一步減少運行時間。而Wang等試圖跟蹤動態網絡中的影響節點。他們將動態網絡建模為邊緣權重更新的流,其中包含許多實際情況,例如特殊情況,例如邊緣和節點的插入,刪除以及不斷發展的加權圖。他們的關鍵思想是使用基於輪詢的方法並維護隨機RR集的樣本,以便我們可以用可證明的質量保證來近似節點的影響。

5.5 影響最大化的變體

首先,嘗試概括影響力最大化問題或對問題1中的原始表述添加更多約束。例如,預算影響力最大化(budgeted influence maximization)(BIM),識別一小部分有影響力的人,這些人可以在有限的預算內影響最大成員數。在這個問題的基礎上后來提出了連續影響最大化(continuous influence maximization)(CIM)問題,假如正在通過一個社交網絡推出一種新產品,在該社交網絡中,我們可以獲得網絡中每個用戶的與折扣相關的購買概率曲線,基於此,可以決定應向那些社交網絡用戶提供什么折扣,以便在預定預算下最大化購買量。CIM是影響力最大化(IM)和BIM的概括。此外,Aslay等人研究了激勵性社會廣告(incentivized social advertising)中的收益最大化問題(revenue maximization problem),它的目的是將廣告分配給有影響力的用戶,以實現其自身收益最大化的合理目標,他們考慮了廣告病毒傳播的傾向,並在影響用戶的激勵措施和參與成本之間仔細分配了每個廣告商的貨幣預算。

其次,營銷人員通常將特定產品定位於特定的客戶群。例如,一家化妝品公司希望其產品吸引更多的女性而不是男性。李將上面的公式描述為標記的影響最大化問題(labeled influence maximization problem),目的是找到一組種子節點以觸發在標記的社交網絡中對目標客戶的影響最大擴散。標簽信息在當前的社交網絡中廣泛可用,用戶可以通過該社交網絡描述他們的個人興趣,大學畢業,家鄉,年齡,技能等。Tang等同時考慮了影響力的大小和受影響人群的多樣性,並將其表述為多樣化的影響力最大化問題(diversified influence maximization problem)這可以減少營銷活動的風險。此外,劉等人結合有針對性的營銷與病毒式營銷,研究了在目標受限的情況下最大化病毒營銷中的信息意識的問題。

第三,王等在研究網絡中信息傳播的覆蓋范圍時,考慮主動節點和通知節點都知道信息。他們提出了一個新問題,即信息覆蓋率最大化,旨在最大化活動節點和通知節點的預期數量,並表明該問題在IC模型中是NP-hard和次模的。之后,他們進一步研究了活動最大化問題,該問題選擇了一組種子用戶,以最大化對一條新信息的預期興奮總量,它不能用現有方法解決。在一個社交網絡中,即使在相同的信息下,不同用戶之間的興奮也是不同的,他們的目的是在給定的預算下找到最佳的種子用戶集合,並開始從種子用戶傳播信息,以收集最大的活動總和受影響用戶之間的優勢。

最后,有時社交網絡中傳播的信息不止一種,例如有關競爭產品的不同信息。 He等集中討論了競爭線性閾值(CLT)模型下的最大化最大化問題,該模型指出,一個實體將通過策略性地選擇一些種子節點,來嘗試通過其可能的傳播來盡可能多地阻止其競爭實體的影響傳播,他們擴展了LDAG [56],並設計了一種有效的算法,競爭性局部有向無環圖(CLDAG)利用了CLT模型的特性來解決這個問題。此外,據推測,競爭者之一可以通過創建新的鏈接來增強其影響力。一個自然的問題是,當新鏈接的數量由於資源有限而受到限制時,如何添加這些鏈接,以使給定競爭對手對其他競爭對手的影響最大化(稱為競爭力)。趙等人將其表述為復雜網絡上的競爭力最大化問題。他們考慮了以下兩種情況:最大化競爭對手的支持者數量,以及最大化正常代理商對競爭對手的總體支持程度。此外,許多人也關心自己的影響力,並希望增強影響力。因此,馬等人考慮過通過推薦新鏈接來最大化目標個人影響力的個人影響力最大化問題。

 

 6 信息源檢測

當觀察到一條信息在網絡中擴散之后哪些節點處於活動狀態時,我們是否可以推斷出觸發此觀察到的擴散結果的源節點或種子節點? 例如,在網絡上散布謠言之后,我們要查找謠言源節點停止其傳播。 此問題稱為信息源檢測(information source detection),可以視為信息擴散的逆過程。應用例如流行病爆發的預防和社交網絡中的謠言來源追蹤。

 從$t_{0}$時刻到t時刻,網絡G中會有很多節點被感染,$t_{0}$代表信息開始從未知節點集合$S^{*}$傳播到網絡G。假定像傳染病模型一樣,每個節點有三個狀態:易感,感染和康復。$G_{I}$表示感染的子圖,$G_{I}\left ( V_{I},E_{I} \right )$由感染的節點$V_{I}$以及他們相互之間的邊$E_{I}$組成。$P\left ( G_{I}\mid S \right )$代表當信息從S開始傳播后,觀測到$G_{I}$的概率。

信息源檢測的目的是根據觀察到的節點狀態和網絡結構來識別啟動擴散過程的源節點,這些節點可以正式定義如下:

問題2:信息源檢測就是,在t時刻觀察到了受感染子圖$G_{I}\left ( V_{I},E_{I} \right )$,要去找到源節點$\widehat{S}$,例如$\widehat{S}=argmaxP\left ( G_{I}\mid S \right )$,$t_{0}$是未知的時刻,從此時開始信息在網絡中傳播。

上圖中,經常只能看到某個時刻網絡的狀態,並獲得某些節點的狀態,這只是整個網絡的一部分擴散過程。只知道哪些節點被感染,但無法區分表明誰感染誰以及何時感染的傳播路徑。實際的信息傳播規律是未知的,無法由第3節中的模型全面描述。信息傳播是高度動態的,並且在從不同來源發起時具有多種模式。現實世界中通常有多個源節點,而數量未知。信息開始傳播的時戳以及持續的時間也不可用。
Shah和Zaman是最早考慮這個問題的人。此后,針對不同情況進行了很多努力,根據觀察到的結點狀態可分為三類:完全觀察(complete observation),部分觀察(partial observation),傳感器觀察(sensor observation)。圖5示出了每個類別的觀察到的擴散結果的三個示例。

在下一部分中,簡要描述相應的解決方案,以檢測近年來觀察到的三類源節點。

 6.1 全面觀察檢測

具有完整觀察結果的檢測方法。當觀察信息傳播后的時間t時,可獲得整個網絡中所有節點的完整狀態。可以確定哪些節點已被感染,哪些已恢復或仍然易受感染。

6.1.1 謠言中心

Shah和Zaman假設只有一個源節點,並使用SIR模型的一種SI模型描述了病毒在網絡中的傳播。然后他們為病毒源構造了以下最大似然估計器:

$\widehat{v}=argmax_{v\in v_{I}}P\left ( G_{I}\mid v^{*}=v \right )$

其中,$\widehat{v}$是檢測到的源節點,$v^{*}$是真實的源節點。他們表明,在規則樹中,上述估算器等於選擇一個具有最大謠言中心度(rumor centrality)的節點,謠言中心度$R\left ( v,G_{I} \right )$是基於樹的節點的允許序列,始於節點v,允許的排列是$v_{I}$中受網絡結構設置的排序約束的節點的排列。

檢測到的節點$\widehat{v}$稱為謠言中心。

他們發現節點v的謠言中心度$R\left ( v,G_{I} \right )$對樹有一個簡單的表達:

$T^{v}_{u}$表示源節點是v時,以節點u為根節點的子樹的節點數量。他們還設計了一種有效的消息傳遞算法,以計算每個節點的謠言中心度,時間復雜度為$O\left ( V_{I} \right )$.

他們發現允許序列也是線性的偏序集(poset),計算其數量屬於一般圖中完成的復雜度類別#P ,為了將這種算法擴展到一般圖中,他們假定病毒傳播從節點v出發,沿着以v為根節點的廣義搜索樹breadth first search (BFS)$T_{bfs}\left ( v \right )$,並以最大的謠言中心度$R\left ( v,T_{bfs}\left ( v \right ) \right )$檢測出謠言中心。此外,他們證明了謠言中心等於樹上的距離中心。 而且,在生長速度快於直線的樹上,(23)中的估計量總是具有非平凡的檢測能力概率,而在像線一樣長的樹上,隨着網絡的增長,檢測概率將變為0。

 他們的方法在某些方面有一些局限性:首先,它僅適用於只有一個源節點的情況。 其次,它僅考慮受感染的子圖,而忽略了其他未感染的節點,這對於檢測源也很重要。 第三,謠言中心性假設所有允許排列的概率對於一般圖而言都是相等的。

該方法的改進方法略。

6.1.2 特征向量中心

例如,Fioriti和Chinnici使用頻譜技術預測了暴發的多種來源。 他們建議使用節點動態重要性( node dynamical importance )(DI)來評估網絡中最重要的節點,該節點動態重要性是節點移除后鄰接矩陣最大特征值的減少值。 他們指出,刪除節點后的大量減少意味着該節點與感染網絡的老化有關。節點v的動態重要性(即動態年齡)由下式定義:

分子表示節點移除后最大特征值的減少值,檢測到的源節點就是$DI_{v}$最大的節點。結果表明,如果圖足夠近似樹,則光譜技術可以識別源節點。

 6.1.3 采樣方法

觀察每個節點的受感染子圖的可能性,它們專注於隨機擴散模型,例如獨立級聯(IC)模型和線性閾值(LT)模型。翟(Zhai)等人設計了一個馬爾可夫鏈蒙特卡羅(MCMC)算法,他們將檢測化為問題2的最大似然估計的源推斷問題,受感染子圖的生成對應於特定分布G。由於計算似然的確切值是#P-hard,因此他們建議使用Metropolis算法對馬爾可夫鏈中的$G_{I}$進行采樣。當MCMC鏈收斂時,平穩分布將為$G_{I}$,此后,他們對被感染的子圖進行計數,,並選擇一個最大值為源節點的節點。但是,這種方法在受感染的節點數很大時非常耗時,並且很難判斷MCMC的收斂性以停止采樣。 Zhang et al。[99]進一步擴展了該方法在LT模型下的源檢測。

此外,阮氏通過搜索種子集S提出了一種新的方法來識別多個感染源,基於采樣的感染源識別(SISI),以在無需事先知道源節點數量的情況下識別感染源。SISI包含兩個關鍵組成部分:有效的截斷反向感染抽樣(TRIS),可以高精度和機密性地計算目標,並將研究的問題創新地轉化為亞模塊成本覆蓋問題 提供具有性能保證的高質量解決方案。SISI適用於大多數漸進式擴散模型,並為一般圖中的問題提供了可證明的保證。

6.1.4 擴散核(diffusion kernel)

擴散內核可以表示給定網絡中的擴散過程,但是計算該內核通常在計算上具有挑戰性。 Feizi等人提出了一種基於路徑的網絡擴散核,該核考慮了網絡中節點對之間的邊沿不相交的最短路徑,並且可以有效地計算出均質和異質連續時間擴散模型,並使用該網絡擴散核解決了逆擴散問題(inverse diffusion problem), 命名網絡注入(network infusion)(NI)同時具有最大可能性和最小錯誤。 他們使用候選源節點的先驗概率和無先驗概率,將此框架應用於單源擴散和多源擴散以及單快照(single-snapshot )和多快照觀察。

6.2 局部觀察檢測

在某些情況下,我們只能在給定的時間t觀察部分節點的狀態。 姜等[94] 總結為四個案例。
1)節點如果被感染,則很有可能顯示其狀態。
2)我們可以識別所有感染的節點,但不能區分易感或已恢復的節點,因為某些感染的節點可能以SIR模型中的概率從疾病中恢復過來。
3)僅觀察到在時間t被感染的節點,而在時間t之前被感染的其他節點的狀態丟失。 例如,圖5中的環中觀察到的黑色節點在時間t被感染。
4)由於財務和人力資源等方面的限制,我們僅在時間t觀察部分節點,請注意,某些觀察到的節點可能在時間t之前被感染。
在下一部分中,我們將介紹一些針對不同情況的典型解決方案

6.2.1 Jordan中心

這種方法選擇Jordan中心作為檢測到的源節點,該節點具有在(6)中定義的最大Jordan中心度。 這意味着Jordan中心是一個最小化與其他節點的最大距離的節點。 朱研究了在流行的敏感感染恢復(SIR)模型下的源頭檢測問題。 給定網絡快照,我們知道所有受感染的節點,但無法區分易受感染的節點和已恢復的節點。 假定網絡是無向圖,並且網絡中的每個節點都具有三種可能的狀態:易受感染(S),受感染(I)和已恢復(R)。 狀態S的節點可以被感染並更改為狀態I,狀態I的節點可以恢復並更改為狀態R。

他們用最大似然估計(MLE)形式化了這個問題。為了解決該問題,我們需要考慮所有可能的感染樣本路徑,這對於初始感染時間未知的大規模網絡是不可能的。為了克服這個困難,他們建議找到最有可能導致觀察到的快照的樣本路徑,並將與該樣本路徑關聯的第一個節點視為信息源。他們證明了對於無限樹,估計器是一個節點,該節點使到受感染節點的最大距離(即約旦中心)最小化。提出了一種反向感染算法以在一般圖中找到這種估計量。在該算法中,每個受感染的節點在網絡中廣播其身份,然后最先收集所有受感染節點的身份的節點將自己聲明為信息源。根據到受感染節點的距離之和斷開連接。朱和英[105]進一步擴展了這種方法,在稀疏觀測的異構SIR模型下進行源檢測。他們假設報告了感染節點的一小部分。異構SIR模型允許沿邊緣的不同感染概率以及在不同節點的不同恢復概率。此外,Luo 探索了在SI和SIS模型下基於樣本路徑的源檢測方法。他們獲得了與SIR模型相同的結論:檢測到的源是約旦中心。但是,約旦中心法是為樹狀網絡設計的,這與真實網絡有很大不同。

6.2.2 消息傳遞方法

基於信息傳遞,基於SIR模型用感染和未感染節點探索源節點,他們介紹了一種有效的基於動態消息傳遞(DMP)方程的算法

分別表示節點i在k或k+1時刻變成狀態SIR的邊際概率。

theta表示在t=k+1時刻傳染還未從k到i的概率,也是節點i的恢復概率

 

6.2.3 重建傳播

恢復傳播路徑或者恢復狀態

 

6.3 傳感器檢測

在網絡中選擇一些節點作為傳感器監視信息的傳播。通過觀察這些節點的狀態,狀態轉換時間(即,當它們被感染時)和感染方向(即,信息來自哪個相鄰節點)來了解信息傳播。 如何使用這些節點檢測信息源?

6.3.1 延遲距離估算器Delay distance estimator

一般傳播樹的估計

邊的傳播時間獨立,服從高斯分布;信息傳播遵循連續的SI模型,受感染的節點將在傳播延遲中將信息重新傳輸到其所有其他鄰居。根據信息到達傳感器的距離先確定一個唯一的子樹$T_{a}$。對於給定的傳感器節點$o_{1}$,計算它和其他子樹中傳感器節點的觀測延遲d。然后假定任意一個節點$s\in T$為源節點,計算從s到$o_{k}$的傳播時間,記為$P\left ( s,o_{k} \right )$,針對每個傳感器節點,由下式計算相對於$o_{1}$的確定性延遲:

即由s到$o_{k}$的傳播時間減去到$o_{1}$的傳播時間,為相對於$o_{1}$的確定性延遲。

這意味着檢測到的源是一個節點,該節點使相對於傳感器節點的觀察到的延遲和確定性延遲之間的距離最小。

 

7 結論和未來發展

總而言之,我們回顧了社交網絡中信息傳播分析的最新進展及其在本文中的應用。具體來說,我們首先介紹了三種典型的信息擴散模型,即獨立級聯(IC)模型,線性閾值(LT)模型和流行病模型,它們可用於描述信息如何在網絡中擴散。然后,我們展示了三個實際問題:權威和影響力評估,影響力最大化以及信息源檢測。社交網絡中的權威和影響力評估對於有影響力的吊具識別和專家發現很重要,而影響力最大化則有助於病毒式營銷和傳感器放置。信息源檢測具有廣泛的應用,例如流行病爆發的預防和社交網絡中謠言源的追蹤。盡管已為解決這些問題做出了許多努力,但仍有一些改進空間。在這里,我們將列出一些可能的方向,以供進一步研究。

首先,當前的信息傳播模型具有完善的理論屬性可用於進一步分析,但簡化了實際上非常復雜的現實情況。 用戶可以從外部資源(例如電視,報紙和其他網站)訪問信息,而不僅僅是從社交網絡中的鄰居訪問信息。 此外,網絡中可能同時傳播多種類型的信息,例如競爭產品的信息。 因此,有希望在外部影響下對異構社會網絡中的多種信息傳播進行建模。 例如,邁爾斯(Myers)等人提出了一種模型,其中信息可以通過社交網絡的鏈接或通過外部來源的影響到達節點。 此外,詹等研究了在線社交網絡中多個部分對齊的異構環境中的影響最大化問題。

其次,大的可伸縮性是在現實應用中,尤其是對於大型網絡,應用影響力最大化和信息源檢測的最大挑戰之一。 Borgs等人提出了反向采樣算法后,影響最大化的解決方案有了很大的進步,因此,我們可以像Nguyen等人那樣借鑒經驗,加快信息源檢測的解決方案。 此外,在分布式編程中實現這些解決方案是另一個實用的方向。

第三,大多數當前解決方案都適用於靜態網絡,而他們卻忽略了網絡是動態且不斷發展的。 例如,用戶可能會在一段時間內取消關注他的一些朋友,並且他的個人興趣可能會在不同主題上發生變化。 也就是說,不同用戶之間的聯系強度隨時間變化。 我們應該考慮到這一事實,以便更好地分析社交網絡中的信息傳播。

第四,深度學習最近已應用於社交網絡分析的許多任務,例如網絡嵌入(network embedding)和鏈接預測(link prediction)。 社交網絡中信息傳播的真實過程非常復雜,有時甚至無法觀察。 我們可以設計深度學習方法來分析信息擴散嗎? 例如,當我們將網絡結構和用戶屬性(例如年齡,性別,職位)輸入到基於深度學習的模型中時,我們可以輸出該用戶的影響力。 Bourigault等人 提出了一種用於社交網絡中信息源檢測的表示學習方法。 它既不依賴於已知的擴散圖也不依賴於假設的擴散定律,而是直接從擴散記錄中推斷出來源。

最后,將信息傳播分析與其他實際問題結合起來很有吸引力,例如針對社會用戶的行為預測[8,133,134]。例如,社交用戶通常同時受到多個公司的影響,不僅用戶利益,而且這些社交影響都將影響用戶的消費行為。 Ma等[135]提出了一種一般方法,要同時考慮目標用戶的興趣和多種社會影響因素,從而確定進行社會營銷的目標用戶。有價值的用戶應具有最佳的平衡影響熵(“猶豫”)和效用得分(“感興趣”)。 Wu et al。[133]以潛在的社會理論來解釋和建模用戶的兩種行為的演變:用戶的偏好(反映在用戶-項目交互行為中)和社交網絡結構(反映在用戶-用戶交互行為中)。徐等。[8]試圖揭示社交傳播如何影響出租車司機未來行為的預測。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM