針對graph的幾個定義:
Girth(\(\gamma(G)\)): shortest cycle
Independence number (\(\alpha(G)\)): graph中vertices都沒有相關關系(這里的定義是兩個結點之間沒有連接邊)的最大簇(也就是說graph中沒有相互關系邊,結點數目最多的結點集合)。
chromatic number(\(\chi(G)\): 類似於bipartite graph擁有兩個顏色,這里說的是Graph G當中不同的結點分屬於不同的k的顏色類別,每個顏色類類別中的結點都不互相相連。
chromatic number與independence number擁有相關關系
Erd¨os-R´enyi Model:
模型定義: 圖的結點數目\(n\),一條邊的概率\(p\)
markov's inequality(可以中期望的定義角度證明,從期望值會大於等於什么值反向證明):
一般用\(Pr[\textit{X}\geq\textit{1}]\leq\textbf{E}[\textit{X}]\)
Union Bound:
Independence Number(存在一個上限值)
如果graph中每個vertex的degree最多為\(d\),那么independent set最少是\(\frac{n}{d+1}\)
按照上面的色圖理解:如果是四色圖,因為同樣顏色的結點不能連接,所以四色圖結點最大的個數為3,從上面每個結點的degree最多是\(d\),如果認為是d+1圖,那么最少每個independent set的大小為\(\frac{n}{d+1}\)
按照上面隨即圖的定義,總共n個結點,每條邊存在的概率為p,那么每個結點的平均degree為\(d=p(n-1)\);
令p=1/2,那么G的independence number最大為\(3log_2n+1\)的概率值很大。
proof:g
令\(\varepsilon>0, k=[3log_2n+1],S_1, ..., S_z為子集,結點數目都為k,那么z=\binom{n}{k}, X_i為隨機變量(取值0,1,當S_i為independence\ set時為1)\)
令
\(S_i\)表征的是independence set,而且我們假設每個大小都為k,如果要滿足independence set的條件,那么這個集合當中,任意兩個結點在原來的graph當中都應該不是相連的,其中任意兩個結點都不連接的概率(\(p與k滿足上面假設\))為:
所以:
當n趨於無窮的時候,上述表達式趨向於0
所以:
事實上,\(\alpha(G)更加接近與2log_2n\)
更一般化而言:
利用\(1-p \leq e^{-p}\),當\(k=\frac{3lnn}{p}+1\)時
所以:
High Girth(graph的擁有high girth和high chromatic number)
\(girth:\ g, chromatic number:\ x\),令\(p=n^{1/2g-1}\)
(舉例說明)這樣的隨機生成的graph,可能包含小的cycles,但是不會有很多,如果我們一處cycle長度達到g中的一個vertex,那么余下的graph中不會再用有小的環,但是這個圖至少還會有2/n個vertices。
\(G^\prime=(V^\prime, E^\prime)\)為上面以除了至多n/2個vertices之后的graph,G為原圖,令\(S\in V^\prime是G^\prime\)中的independent set,因此
而且,
從independent number可以知道,至少有3/4(該概率值計算需要進一步理解)的概率,或者說接近於1,
當滿足上述條件且\(V^\prime \geq n/2\),
當g的大小固定時,上式中的分子增長速度大於分母的增長速度,因此對與足夠大的\(n\),\(\chi(G^\prime) \geq x\)
以下證明,G當中會存在少量長度為g的circle。
g-cycles: 有2g種描述,第一個結點有g個選擇,可以走不同的兩邊,總共存在的組合數目:
由於每條邊出現的概率為g,所以組合中每一個出現的概率值為\(p^g\),因此g-cycles存在的數量的期望值:
graph中存在長度為j的數量,當j<g時,期望數值會更少,當circle的長度,最長為g,那么期望存在的數目最多不會超過\(gn^{1/2}\);
按照markov's inequality
因為上面cycles的長度不超過g的期望值是\(gn^{1/2}\),那么在G中含有\(4gn^{1/2}\)個長度最長為g的cycles的概率值不會大於1/4(\(\frac{gn^{1/2}}{4gn^{1/2}}\))
當n足夠大能夠滿足\(4gn^{1/2} \leq n/2\)時,那么至少有3/4的概率,\(G^\prime\)最少會有n/2個結點(根據上面\(G^\prime\)的剩余規則)。
通過上面的構造,\(G^\prime\)的girth最少為g,有3/4的概率\(G^\prime\)至少有n/2個結點,至少有3/4的概率G的independence number為\(3n^{1-1/2g}lnn\)。
union bounds定律可以知道,independence number和girth都滿足上述條件的概率至少為1/2,也就是說,只有有1/2的概率\(G^\prime\)至少有\(n/2個vertices,\alpha(G)至少為3n^{1-1/2g}lnn,所以\chi(G) \geq x(當n足夠大時)\).
Giant Component:
Real-world graph通常會有一個component包含大部分的vertices,second-largest component會比這個小很多數量級。
這里用Erdos-renyi random graph來表明這個現象,這個large component叫做giant component。
model參數:\(p = c/(n-1)\), c為常數項,n
可變,所以每個vertex的degree的期望值為\(c(c/(n-1)*(n-1))\)。當c<1時,每個component可能會很小,最多擁有\(\textit{O}(logn)\)個vertices,當c>1時,這個graph可能會包含a constant fraction of vertices的連通分量。
當c從0-1變化時,graph property的也會發生改變(threshold phenomenon)
Concenration and chenoff Bounds
Chernoff(and Hoeffding) bounds都是中央集中定理(central limit theorem):所有的獨立的隨機變量的和都是指數集中在他們的均值附近,他們不等式的形式依賴於隨機變量的類型。
Erdos-renyi model的隨機變量為bernoulli random variables。
定理 令\(X_1,...,X_n為獨立的Bernoulli(也就是說取值為0/1)\ random\ variables, 且Pr[X_i=1]=p_i。令X=\sum X_i,\mu=\sum p_i為X的期望值.那么對所有0<\delta<1,有\)
和
當\(p=clnn/(n-1)\),c>6時,vertex的期望degree為\mu=cln(n)。如果我們設\(\delta=\sqrt{6/c}<1\), 那么vertex的degree會超過$(1+\delta)\mu的概率值為:
degree大於\((c+\sqrt{6c})lnn以及degree小於(c-\sqrt{4c})lnn\)的概率都最多為\(n^{-1}\).
Galton-Vaston process, binary case
通過細胞分裂的例子,分析后代存活數量。
每一次分裂,每一個個體的存活概率為\(p\),所以,第一代細胞的存活數量的期望值為\(2p\),第二代細胞的存活數量的期望值為\(4p^2\).
以此類推,k-th代細胞存活數量的期望值為\(2^kp^k=(2p)^k\).
當\(p<1/2\)時,存活梁會接近與0,\(p>1/2\)存活率為區域無窮(threshold phenomenon)。
\(p<1/2\)
令\(X^k\)為kth generation后代的counting number(random ariable),\(X^k\geq 1\)表明后代依舊存在:
\(p>1/2\)
\(\theta_k(p)\)為至少存在k-th generation的概率值,等同於k-1代至少存活一個后代。令\(A\)為first child存活到k-1代,\(B\)為second child存活到k-1代。
first child存活,並且至少有k-1個后代存活的概率為\(p\theta_{k-1}(p)\),(A,B事件發生的概率值都為\(\theta_k(p)\))。
當\(k\)增長時,如果\(\theta_k(p)\)有一個增長上限\(q=2pq-(pq)^2\),那么
因為\(\theta_0(p)=1, 從q的定義中可知,q能夠取到的最大值為1(p==1是),p越小q值越小, 所以 1=\theta_0(p)\geq q\),
對\(f(x)進行單調性分析可知,因為x的取值范圍為(0,1],f(x)在此范圍內單調遞增,令f(q)=q,可知當x\in (q,1]時,f(x)\geq q\)
因為當\(k \geq 0, \theta_k(p)\geq q\).
\(a_n數列的下極限: lim\ inf\ a_n, 上極限lim\ sup\ a_n\)
\(\lim\inf\limits_{k\to\infty}\theta_k(p)=q\)
The Number of Descendants
現在每個細胞會分裂為k個后代,令\(p=c/k\),當\(c<1時屬於sub-critical\ regime,c>1時為super-critical\ regime\)
這里給每個后代進行編號,保證第j代的編號都小於第j+1代的編號。
\(X_{j,1}, ..., X{j,k}\)為bernoulli random variable, \(X_{j,i}=1\),表示cell j的第i個child存活下來。最終存活的數量為\(u\).
chernoff bounds:
\(X^{(u)}\)的期望值為
上述變量\(X_{j,i}\)暫時不考慮Galton-Waston process,只考慮存在與否。
$令Z為first organism的后代,加1是為了最開始的organism(也可以認為把自身看成一個后代)。
c<1
\(當c<1時,\mu會顯著小於u值,並且Chernoff bounds也可以明顯表明,X^{(u)}不大可能大於u\)
根據chernoff bounds,可以計算出\(\delta\)取值,\(\delta=\frac{1}{c}-1\),
最終得到:
This is why all the components of \(g(n, p)\) in the sub-critical case probably have logarithmic size.
c>1
super-critical case, \(對與Z=u(u足夠大)的可能性非常小, 結論Z不小而且可能無窮大\)。
可以推出\(\delta=1-\frac{1}{c}\)
因此:
令
把所有有限series都相關,那么Z概率值花很大,但是還是有限值:
This is part of why the second-largest component of \(g(n,p)\) in the super-critical case probably has logarithmic size。
這意味着:
Galton Waston 總結
當\(p=c/k\)時
定理:
\(令Y為first\ organism生存下來的后代數量可以reproduce(但是不包含first organism), 如果c<1,那么對所有的u>0,有\)
\(Y與前面Z的差別為Y=Z-1\)
定理2:
\(Y定義如上,如果c>1,並且存在常量\beta_c, 不依賴於k,那么\)
以下分析,全部基於概率值\(p=c/k\)
c<1: all small components
將Erdos-renyi random graph與Galton-waston branching process結合,相當於選定一個vertex \(v\),galton-waston過程有\(k=n-1\),(breath-first fashion)。令\(w\)為\(v\)的一個鄰居,\(j\)為\(v\)的鄰居數目,考慮連通分量的特性,實際上,\(w\)是否還直接連接\(v\)的鄰居對改連通分量沒有貢獻,所以此時\(w\)只需要關注其他的\(n-j-1\)個結點,也就是Galton-waston不是分裂成n-1,而是分裂成為n-j-1,這樣的變化帶了的影響就是該component更小了。對於\(v\)的其他鄰居,我們考慮同樣的他可分裂的后代不是\(v\)的潛在孩子。
(下面這段有點奇怪,還是得重新理解一下)
c>1: the giant component
\(p=c/n\)在這種情況下,圖中會出現很大的component,現在只考慮\(c \leq 2\)的問題。
從c<1 case中modified Galton-Watson process過程中已知,這個過程會減少component的大小,但是現在在c>1的情況下,我們想證明這個圖當中還是會存在大的component。
為了解決這個問題,設\(d=\sqrt{c}, 因為c>1, 所以d=c/n*n>1\), 這里會探索\(當k=(2-d)n, p^\prime = d/(n-1)時,cell\ v\ 存活的情況\)。
從上面已知,現在的\(k=(2-d)n,那么已經發現的vertices為n-k=(d-1)n, 當已經發現的節點數目為(d-1)n, 那么至少還存在(2-d)n個vertices存在\)。
(未完全理解)
v鄰居的Galton-Waston process的分裂中,如果其中的某一些cell分裂多於k個children,那么存活率會增加(這里是不是表明v前面沒有發現那么多個節點呢???)。這意為這他們更可能生成一個大的component,但是當發現了(1-d)n個節點之后,這個分析就無效了,但是也可以認為此時我們已經有了一個giant component。
當一個component的大小至少為(d-1)n的時候,存在constant chance, Galton-Watson process中會有一個無窮大的component。否則,size of component 大於\(\alpha lnn\)的概率最多為\(1/n^2\)。(我們可以假定這種情況下前者存在???)這種情況下,發現component中還沒有被放置的一個節點,通過logarithmic number的時間,我們很大的可能發現一個大的component。更多的時,logarathmic
number of small component 只會移除O(log^2n) 個vertices,對與大的n而言,這個數量可以忽略不計。
(為什么不大可能出現兩個大的component,是因為這兩者中間可能有邊連接。)
Graph with given degree distribution
Edos-renyi random graph的degree分布為binominal degree distribution,但是更多的graph的分布為長尾分布(heavy tails)。
這里甬道的圖利用的時fixing degree distribution, 也就是選擇一個random graph,圖符合\(k_i個vertices用有i個degree, \sum_i k_i=n. 隨機圖生成方式:對\)k_i$個節點設定i個socket,每次隨機選擇兩個socket,進行邊的連接,如果出現自環或者相同的邊,那么就再重新sample(開銷不大的時候)(Kim Wormald)
Diameter
事實上很多graph的周長都比較小。對於這種fixed degree distribution,只要最小的degree不是特別小,可能會擁有logarithmic diameter。只要最小的degree大於3就足夠了。
令\(\textit{S}\)時節點子集,如果\(|\textit{S}|\leq n/4\),那么\(\textit{S}\)的並集以及他的鄰居可能至少大小為\(2|\textit{S}|\)。也就是說,每個節點至少會有一個neighbor,these togetherprobably have 2 neighbors。
所以,\(只要滿足2^k < n/2, 每個節點可能至少在他的距離k以內有2^k個節點\)