隨機網絡模型
網絡科學旨在建立能夠重現真實網絡性質的模型。我們遇到的大多數真實網絡沒有晶格所具有的那種令人愉悅的規則結構,或者蜘蛛網所具有的那種可預測的放射型結構。相反,真實網絡乍一看好像是隨機連接而成的。隨機網絡理論通過構建和刻畫真正隨機的網絡來解釋這種表面上的隨機性。
從建模的角度來看,網絡是一個相對簡單的對象,僅由節點和鏈接組成。然而,真正的挑戰在於,在哪些節點間放置鏈接才能重現真實系統的復雜性。在這一點上,隨機網絡背后的哲學思想很簡單:在節點之間隨機放置鏈接。
定義隨機網絡
隨機網絡有兩種定義方式:
-
G(N,L)模型
N個節點通過L條隨機放置的鏈接彼此相連。埃爾德什和雷尼在他們關於隨機網絡的系列論文中采用的是這種定義方式。 -
G(N,p)模型
N個節點中,每對節點之間以概率p彼此相連。該模型是由埃德加·N.吉爾伯特(Edgar N.Gilbert)提出的。G(N,p)模型固定了兩個節點的連接概率p,
G (N,L)模型則固定了總鏈接數L。
G(N,L)模型中,節點平均度可以簡單地算出,即
=2L/N。 G (N,p)模型中,網絡其他特征則更容易計算。
使用G(N,p)模型生成隨機網絡的步驟(隨機網絡由N個節點組成,每對節點相互連接的概率為p。):
(1)從N個孤立節點開始。
(2)選擇一對節點,產生一個0到1之間的隨機數。如果該隨機數小於p,在這對節點之間放置一條鏈接;否則,該節點對保持不連接。
(3)對所有N (N-1)/2個節點對,重復步驟(2)。
上述過程得到的網絡被稱為隨機圖或隨機網絡。兩位數學家——保羅·埃爾德什和阿爾弗雷德·雷尼在理解隨機網絡的性質方面發揮了重要作用。為了紀念他們,隨機網絡被命名為埃爾德什―雷尼網絡
鏈接數
由同樣的參數N和p產生的隨機網絡,看起來會稍有不同(如下圖)。這種不同不僅體現在詳細的節點連接情況上,還體現在鏈接數L上。因此,給定參數N和p時,判定出所生成隨機網絡的期望鏈接數是有價值的。
說明:
第一行圖
參數均為p=1/6,N=12的三個隨機網絡。盡管參數相同,但這三個網絡不僅看上去差別很大,鏈接數也不同(L=10,10,8)。
第二行圖
參數均為p=0.03,N=100的三個隨機網絡。可以看到,圖的底部有一些孤立節點,這些節點的度為k=O。
隨機網絡恰好有L條鏈接的概率:
(1)L個點對之間存在鏈接的概率,即\(P^L\)。
(2)剩余N(N-1)/2-L個點對之間沒有鏈接的概率,即$ (1-P)^{\frac{N(N-1)}{2}-L}$
(3)在所有N(N-1)/2個點對中選擇L個點對放置鏈接,所有可能的選擇方式數為:\(\begin{pmatrix}\frac{N(N-1)}{2} \\L \end{pmatrix}\)
上述公式是一個二項式分布,因此隨機網絡的期望鏈接數為:
可以看出,
根據期望連接數公式,我們可以得到
隨機網絡的平均度:
也就是說,對於節點數為N的隨機網絡而言,其平均度
綜上所述,由相同參數N和p產生的不同隨機網絡,其鏈接數可以不同。鏈接數的期望值取決於N和p。增大p的值會使隨機網絡變得更稠密:平均鏈接數從
度分布
隨機網絡中,有些節點有許多鏈接,有些節點只有少量鏈接,甚至沒有鏈接。這種差異可以通過度分布\(P_k\)來刻畫,\(P_k\)表示一個隨機選擇的節點其度為k的概率。
二項分布
隨機網絡中,一個節點i恰好有k個鏈接的概率是下面三項的乘積:
(1)k個鏈接出現的概率,即\(P_k\)。
(2)剩下(N-1-k)個鏈接不出現的概率,即\((1-p)^{N-1-k}\)。
(3)節點i的N-1個可能存在的鏈接中選出k個,選擇方式的總數為:\(\begin{pmatrix} N-1 \\ K \end{pmatrix}\)
二項分布的形狀取決於網絡大小N和鏈接概率p:
泊松分布
大部分真實網絡是稀疏的,意味着這些網絡的平均度遠小於網絡大小——< k >遠小於N。極限情況下,度分布可以近似為如下泊松分布
上面兩個公式,通常被稱為隨機網絡的度分布。因此它們有相似的性質 :
- 這兩個分布都在
附近有一個峰值。增加p的值會使網絡變得稠密,平均度 和度分布的峰值會右移。 - 分布的寬度(離散度)也由p和
控制。網絡越稠密,分布越寬,節點度的差異也越大。
隨機網絡度分布的精確形式是二項分布。因此,只是在
遠小於N的極限情況下對泊松分布近似。 由於大多數真實網絡都是稀疏的,上述近似所需的條件通常會被滿足。
- 泊松形式的優勢是,像
、< \(k^2\)>和 \(σ_k\)等網絡關鍵特性的形式更簡單,僅依賴於 這一個參數。 - \(P_k= e^{-<k>}\frac{<K>^k}{K!}\)中的泊松分布不顯式地依賴節點數目N。因此,平均度
相同但大小不同的隨機網絡,其度分布幾乎一樣。
綜上所述,雖然泊松分布只是隨機網絡度分布的一種近似,但其形式簡單,便於分析,因此在刻畫隨機網絡的度分布\(P_k\)時,人們更傾向於使用泊松形式。
泊松形式度分布的一個關鍵特征是,其性質與網絡大小無關,僅依賴於平均度
上圖說明,度分布與網絡大小無關。
平均度(k)=50,大小分別為N=\(10^2\)、N=\(10^3\)、N=\(10^4\)的三個隨機網絡的度分布。
小網絡:二項分布(BINOMINAL)
對於小網絡(N=\(10^2\)),由於不滿足泊松近似的條件
大網絡:泊松分布(POISSON)
對於大網絡((N=\(10^3\),N=\(10^4\)),其度分布與灰線所示的泊松分布相差無幾。因此,當網絡大小N很大時,度分布和網絡大小無關。為了避免隨機性帶來的噪聲,圖中所示的結果是在1 000個獨立生成的隨機網絡上平均得到的。
真實網絡不是泊松分布的
據社會學家估計,一個普通人大約認識1 000個人。因此,我們假設網絡的平均度為
(1)隨機社會中連通性最好的人(度最大的節點),大約有\(k_{max}\)=1 185個熟人。
(2)連通性最差的人,認識大約\(k_{min}\)=816個人,和\(k_{max}\)或
(3)隨機網絡度分布的標准差為
\(σ_k\)=
\(<k>^{1/2}\)。對於平均度
總之,在隨機社會中,每個人的朋友數大體相當。因此,如果我們是隨機連接在一起的,就不會有異常的人存在:沒有非常受歡迎的人也沒有只有少數幾個朋友的人。這一驚人的結論源於隨機網絡的一個重要性質:在大的隨機網絡中,大多數節點的度分布在
上述結論明顯和現實不符。實際上,很多人認識的人數遠遠超過1185。例如,美國總統富蘭克林·德拉諾·羅斯福(FranklinDelano Roosevelt)的預約本中有22 000個名字,這些都是他要親自會見的人。與之類似,對Facebook社交網絡的一項研究表明有很多人的好友數達到了5 000——5 000是Facebook社交網絡平台設置的好友數最大值。要弄清楚前述結論和現實之間這些巨大差異產生的原因,我們需要對比真實網絡的度分布和隨機網絡的度分布。
下面三個圖展示了三個真實網絡的度分布以及相應的泊松擬合。展現了真實網絡和隨機網絡之間的巨大差異:
綠色的線是泊松分布——通過測量真實網絡的平均度
真實數據和泊松分布之間的顯著差異表明,隨機網絡模型低估了大度節點的度和出現概率,也低估了小度節點的數量。相反,隨機網絡模型預測網絡中大量節點的度在平均度
(1)泊松形式明顯低估了大度節點的個數。例如,根據隨機網絡模型,互聯網的最大度預計在20左右。真實數據表明,有的路由器的度可以接近\(10^3\)。
(2)真實網絡中度的分布范圍比隨機網絡所預計的要寬得多。這種差異可以通過圖2-4所示的分布離散度\(σ_k\)看出。如果互聯網是隨機的,則預計\(σ_k\)=2.52。而真實測量結果表明,\(σ_{internet}\)=14.14,明顯高於隨機網絡的預計值。這些差異不僅存在於上面三個所示的網絡,所有其他網絡都具有該性質。
總之,和真實數據的對比表明,隨機網絡模型不能刻畫出真實網絡的度分布。隨機網絡中,大多數節點都有類似的度,不存在樞紐節點。與之相反,在真實網絡中,我們觀察到很多高度連接的節點,節點的度之間有很大的差異。
隨機網絡的演化
網絡中最大連通分支的大小\(N_G\)是如何隨着
-
當p=0時,
=0,所有節點都是孤立的。因此,最大連通分支的大小為 \(N_G\)=1。對於大的N,有 \(N_G\)/N→O。 -
當p=1時,
=N-1,網絡是完全連通圖,所有節點屬於同一個連通分支。因此, \(N_G\)=N, \(N_G\)/N=1。 即:當p很小時,網絡中沒有巨連通分支,而當p到達臨界值時,一個巨連通分支突然就出現了。
有人可能會認為,隨着平均度
當
一旦
埃爾德什和雷尼在他們1959年發表的經典論文中預測了巨連通分支出現的條件:
換句話說,當且僅當每個節點平均擁有不少於一個鏈接時,巨連通分支才會出現。
每個節點至少需要一個鏈接才能使網絡中出現巨連通分支,這一事實並不讓人感到意外。實際上,巨連通分支的存在,要求其所包含的每個節點必須至少和一個該連通分支中的其他節點相連。巨連通分支的出現只需要每個節點擁有一個鏈接就足夠了,這多少有點反直覺,但事實的確如此。
根據隨機網絡平均度公式\(<K>=\frac{2<L>}{N}=P(N-1)\),可以使用鏈接概率P來表示公式:
因此,網絡越大,形成巨連通分支所需要的p越小。
-
亞臨界狀態:0<
<1 (p< \(\frac{1}{N}\) ) 當
=0時,網絡由N個孤立節點構成。 的增加意味着我們往網絡中增加了N =pN(N-1)/2個鏈接。然而,由於 <1,網絡中只有少量的鏈接。因此在該狀態下,網絡中只有一些較小的連通分支 。 當然,任何時候我們都可以將最大連通分支指定為巨連通分支。然而,在這種狀態下,最大連通分支的相對大小\(N_G\)/N接近於0。原因是:當
<1時,最大連通分支是一個大小為 \(N_G\)~InN的樹,最大連通分支大小的增加速度比網絡大小的增加速度要慢得多。因此,在N→∞的極限情況下, \(N_G\)≌lnN/N→0。 總之,亞臨界狀態下,網絡由許多較小的連通分支組成,這些分支的大小服從指數分布。因此,這些連通分支的大小相差不大,沒有哪個連通分支的大小明顯高於其他連通分支從而可以被指定為巨連通分支。
-
臨界點:
= 1 ( p= \(\frac{1}{N}\) ) 臨界點是網絡從沒有巨連通分支(
<1)變化到有巨連通分支( >1)的邊界。當網絡處於臨界點時,最大連通分支的相對大小仍然趨近於零。實際上,此時最大連通分支的大小為 \(N_G\) $N^{2/3}$。因此,最大連通分支的大小$N_G$比網絡大小增長得慢得多,在N→∞的極限情況下,最大連通分支的相對大小$N_G$/N \(N^{-1/3}\)→0。 不過,需要注意的是,最大連通分支的絕對大小在
=1處有一個明顯的跳躍。例如,對於有N=7× \(10^9\)個節點的隨機網絡——大小和全球社交網絡相當,當 <1時,最大連通分支的大小為 \(N_G\)≌lnN=ln(7× \(10^9\))≌22.7。相比之下,當 =1時, \(N_G\)~ \(N^{2/3}\)=(7× \(10^9)^{2/3}≌3×106\),比 <1時提升了約5個數量級。然而,無論處於亞臨界狀態還是臨界點,最大連通分支都只包含了網絡所有節點中很小的一部分。 總之,在臨界點,大多數節點出現在數量眾多的小連通分支中,這些連通分支大小的分布服從公式。冪律形式意味着,大小差異很大的連通分支並存。為數眾多的小連通分支主要是樹,而最大連通分支則可能包含環。注意,處於臨界點狀態的網絡,其很多性質和處於相變狀態的物理系統的性質相似。
-
超臨界狀態:
> 1 ( p> \(\frac{1}{N}\) ) 這個狀態最接近於真實系統,該狀態下的最大連通分支開始像網絡了。在臨界點附近,最大連通分支大小的變化遵循:
\[N_G /N ~ <k>-1 \]或者
\[N_G ~ (P-P_c)N \]這里的\(P_c=\frac{1}{N-1}≈\frac{1}{N}\)。換句話說,巨連通分支的相對大小不再是零。距離臨界點越遠,屬於巨連通分支的節點所占的比例越大。注意,上面公式只在
=1附近有效。對於大的 , \(N_G\)和 之間的依賴關系是非線性的。 總之,在超臨界狀態下,許多孤立的小連通分支和一個巨連通分支並存,這些連通分支的大小服從分布。這些小連通分支大多是樹,而巨連通分支則由環或回路構成。超臨界狀態一直持續到所有節點都被巨連通分支吸收為止。
-
全連通狀態:
> lnN ( p > \(\frac{InN}{N}\)) 當p足夠大時,巨連通分支吸收了所有的節點,此時有\(N_G\)≌N。由於沒有孤立節點存在,整個網絡變成連通的了。這種狀態發生時,網絡的平均度取決於N:
\[<k>=lnN \]注意,在剛進入連通狀態時,網絡仍然是相對稀疏的。原因是:對於大的N,ln N/N→0。只有當
=N-1時,網絡才變成完全圖。 總之,隨機網絡模型預測,網絡的出現不是一個流暢的漸進過程:
較小時觀測到的孤立節點和小連通分支會經歷一個相變,坍縮成一個巨連通分支。通過改變 ,我們可以觀測到4個拓撲結構不同的狀態。
真實網絡是超臨界的
隨機網絡理論的兩個預測對真實網絡有着直接的重要性:
(1)一旦平均度超過
(2)當
測量表明,真實網絡的平均度大大超過了臨界閾值
上表中列出了幾個無向網絡的平均度,每個網絡的平均度都滿足
我們現在考慮隨機網絡理論的第二個預測,看一下真實網絡是僅由一個巨連通分支構成(
總之,我們發現大多數真實網絡處於超臨界狀態(如下圖)。因此,這些網絡中存在巨連通分支,這與觀察結果是一致的。不過,除了少數幾個真實網絡外,巨連通分支和一些彼此不連通的小連通分支同時存在。注意,這些預測只有當真實網絡可以由埃爾德什―雷尼模型准確描述(真實網絡是隨機的)時才是有效的。
小世界
小世界現象——又稱六度分隔,長期以來備受公眾關注。
小世界現象指出,在地球上任意選擇兩個人,你會發現他們之間相隔最多6個相識關系。
如果說生活在同一個城市里的兩個人彼此之間只相隔少數幾個相識關系,你可能不會感到吃驚。然而,小世界概念告訴我們,即便是生活在地球上相對方位的兩個人,彼此之間也只相隔少數幾個相識關系。
隨機網絡的直徑為:
該公式是小世界現象的數學表示。
公式給出了網絡直徑\(d_{max}\)和網絡大小N之間的關系。然而,對大多數網絡而言,和對網絡直徑\(d_{max}\)的近似相比,下面公式更好地提供了兩個隨機選擇節點之間平均距離
公式中的項1/In(k )意味着,網絡越稠密,節點間的距離越小。
真實網絡中,公式需要進行系統修正。這源於這樣一個事實:當d>
時,和起始節點距離為d的節點數目迅速減少。 我們現在來看一下公式對社交網絡意味着什么。全球社交網絡中,節點數為N≈7×\(10^9\),平均度為
≈ \(10^3\),因此有:
= 3.28
因此, 地球上所有人只相隔3~4個相識關系。公式的估計可能比人們經常提到的“六度”更接近真實值。
一般而言,lnN<<N。因此,平均距離
集聚系數
一個節點的度未包含該節點鄰居之間關系的信息。這些鄰居節點是彼此相連的還是相互孤立的?
這個問題可以用局部集聚系數\(C_i\)來回答,\(C_i\)反映了節點i的直接鄰居之間的鏈接密度:\(C_i\)=O意味着節點i的鄰居之間沒有鏈接,\(C_i\)=1則意味着節點i的任意兩個鄰居之間都相互連接
對於隨機網絡中的一個節點i,要計算其集聚系數\(C_i\),我們需要估計出該節點的\(k_i\)個鄰居之間的鏈接數\(L_i\)。隨機網絡中,節點i的兩個鄰居之間的鏈接概率是p。由於節點i的\(k_i\)個鄰居之間最多有\(k_i\)(\(k_i\)-1)/2條鏈接,\(L_i\)的期望值為:
因此,隨機網絡的局部集聚系數為:
上面公式給出了兩個預測:
(1)給定
(2)隨機網絡中,節點的局部集聚系數和節點的度相互獨立。
為了測試上面公式的有效性,我們繪制了幾個無向網絡的
我們發現,
總之,隨機網絡模型不能刻畫真實網絡的集聚特性。相反,在具有同樣的N和L的情況下,真實網絡的集聚系數比隨機網絡預測的集聚系數要高得多。
小結∶真實網絡不是隨機的
我們真的相信真實網絡是隨機的嗎?
答案顯然是否定的。例如,蛋白質間的相互作用受嚴格的生物化學定律支配,因此,細胞要發揮其功用則其化學結構不可能是隨機的。同樣,在隨機社會中,對一個美國學生而言,他的某個同學和中國工廠的某個工人成為他朋友的概率幾乎相當。這似乎不合乎邏輯。
-
度分布
隨機網絡的度分布是一個二項分布,在k <<N的極限情況下可以通過泊松分布進行很好的近似。然而,泊松分布不能刻畫真實網絡的度分布。真實系統中,大度節點的數量要比隨機網絡模型預測的多得多。 -
連通性
隨機網絡理論預測,在
>1時,網絡中會出現巨連通分支。不過,這些網絡大多不滿足 >lnN的條件。這意味着,除了巨連通分支,這些網絡還包含一些孤立的小連通分支。實際上,除去少數幾個網絡,大部分真實網絡中並不包含孤立的小連通分支。 -
平均路徑長度
隨機網絡理論預測,平均路徑長度服從公式\(<d> ≈ \frac{InN}{In<k>}\)。這是對實際觀測路徑長度的一個合理近似。因此,隨機網絡模型可以解釋小世界現象的出現。 -
集聚系數
隨機網絡中,局部集聚系數和節點的度無關,以1/N依賴於網絡大小N。相比之下,真實網絡中實際測量出的C(k)隨着節點度的增大而減小,且與網絡大小基本無關。
總之,小世界現象是唯一可以由隨機網絡模型合理解釋的性質。在真實網絡中,從度分布到集聚系數等所有其他網絡特性,都與隨機網絡有着顯著差異。瓦茨和斯托加茨對埃爾德什一雷尼模型的擴展,成功地解釋了高集聚系數C和低平均路徑長度
這一結論自然而然地引出了一個疑問:既然真實網絡不是隨機的,為什么我們還要介紹隨機網絡模型呢?
答案很簡單:在繼續探討真實網絡的性質時,隨機網絡模型將會為我們提供一個重要參照。每當觀測到某種網絡性質時,我們都會問,該性質是否只是偶然出現的。為此,我們可以使用隨機網絡模型作為指南:如果該性質在隨機網絡中存在,則意味着它可以由隨機性解釋。如果該性質在隨機網絡中不存在,則它很可能標志着某種秩序——需要更深入的解釋。因此,盡管隨機網絡模型對大多數真實系統而言可能是錯誤的,它對於網絡科學仍然十分重要。
參考:
[1] [美] Albert-László Barabási.巴拉巴西網絡科學[M].沈華偉,等,譯.河南:河南科學技術出版社,2020
[2] 汪小帆,李翔,陳關榮.網絡科學導論[M].北京:高等教育出版社,2012