社交網絡影響力最大化2(Influence Maximization)


2.2 近幾年研究進展及算法講解

2.2.1 RIS(Reverse Influence Sampling)

2014年的Maximizing Social Influence in Nearly Optimal Time

2014年的Influence Maximization: Near-Optimal Time Complexity Meets Practical Efficiency

2015年的Influence Maximization in Near-Linear Time: A Martingale Approach

2016年的Stop-and-Stare: Optimal Sampling Algorithms for Viral Marketing in Billion-scale Networks

        以上我列出了四篇采用反向影響力采樣方法的論文,該方法大幅度改善了影響力最大化的速度,並使得影響力最大化算法在大型(上百萬甚至上億個節點)社交網絡上得以運行。接下來我具體介紹它們的基本思路。

首先是一些定義:

DEFINITION 1 (REVERSE REACHABLE SET). Let v be a node in G, and g be a graph obtained by removing each edge e in G with 1−p(e) probability. The reverse reachable (RR) set for v in g is the set of nodes in g that can reach v. (That is, for each node u in the RR set, there is a directed path from u to v in g.)

反向可達集:節點v是圖G中的一個節點,將G中所有邊以1-p(e)的概率刪去得到圖g。在圖g中能夠到達節點v的節點集合就是節點v的反向可達集。

DEFINITION 2 (RANDOM RR SET). Let G be the distribution of g induced by the randomness in edge removals from G. A random RR set is an RR set generated on an instance of g randomly sampled fromG, for a node selected uniformly at random from g.

隨機反向可達集:圖g是從圖G中隨機采樣生成的,節點也是隨機均勻地選擇的。

       通過以上定義可知,如果節點u出現在節點v的反向可達集中,那么從u到v一定存在一條路徑,也就是u有一定概率能夠影響v。那么覆蓋更多RR set就意味着能影響更多的節點,基於以上的思想算法如下:

  • (采樣過程)生成一定數量的RR set;
  • (節點選擇過程)貪婪地選擇節點。每次選出一個覆蓋RR集合最多的節點,選中后對整體數據結構進行更新(遍歷該節點所覆蓋的RR集,對每一個覆蓋相同RR集的節點覆蓋數減一),然后繼續選擇下一個節點。

        當然該選擇生成多少RR set才能滿足理論上的近似保證是這幾篇文章最關鍵的地方。生成RR set越少,時間性能就越好。當然實驗的評估標准除了時間還有內存消耗以及影響力大小。

這幾篇文章有的是直接生成指定數量的RR set,有的是不斷生成測試滿足條件就不再生成。具體數學細節有興趣的同學可以去下載這四篇文章去看下。

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM