PageRank算法詳解

本文轉載自查看原文 2020-09-14 16:20 1400 數據算法

https://zhuanlan.zhihu.com/p/137561088

在實際應用中許多數據都以圖（graph）的形式存在，比如，互聯網、社交網絡都可以看作是一個圖。圖數據上的機器學習具有理論與應用上的重要意義。 PageRank 算法是圖的鏈接分析（link analysis）的代表性算法，屬於圖數據上的無監督學習方法。

PageRank算法最初作為互聯網網頁重要度的計算方法，1996 年由Page和Brin提出，並用於谷歌搜索引擎的網頁排序。事實上，PageRank 可以定義在任意有向圖上，后來被應用到社會影響力分析、文本摘要等多個問題。

PageRank算法的基本想法是在有向圖上定義一個隨機游走模型，即一階馬爾可夫鏈，描述隨機游走者沿着有向圖隨機訪問各個結點的行為。在一定條件下，極限情況訪問每個結點的概率收斂到平穩分布，這時各個結點的平穩概率值就是其PageRank值，表示結點的重要度。PageRank 是遞歸定義的，PageRank 的計算可以通過迭代算法進行。

本文第1節給出PageRank 的定義，第2節敘述PageRank的計算方法，包括常用的幕法（power method）。

1.PageRank的定義

1.1 基本想法

歷史上，PageRank算法作為計算互聯網網頁重要度的算法被提出。PageRank是定義在網頁集合上的一個函數，它對每個網頁給出一個正實數，表示網頁的重要程度，整體構成一個向量，PageRank值越高，網頁就越重要，在互聯網搜索的排序中可能就被排在前面。

假設互聯網是一個有向圖，在其基礎上定義隨機游走模型，即一階馬爾可夫鏈，表示網頁瀏覽者在互聯網上隨機瀏覽網頁的過程。假設瀏覽者在每個網頁依照連接出去的超鏈接以等概率跳轉到下一個網頁，並在網上持續不斷進行這樣的隨機跳轉，這個過程形成一階馬爾可夫鏈。PageRank表示這個馬爾可夫鏈的平穩分布。每個網頁的PageRank值就是平穩概率。

圖1表示一個有向圖，假設是簡化的互聯網例，結點 $A$ ， $B$ ， $C$ 和 $D$ 表示網頁，結點之間的有向邊表示網頁之間的超鏈接，邊上的權值表示網頁之間隨機跳轉的概率。假設有一個瀏覽者，在網上隨機游走。如果瀏覽者在網頁 $A$ ，則下一步以 $1/3$ 的概率轉移到網頁 $B$ ， $C$ 和 $D$ 。如果瀏覽者在網頁 $B$ ，則下一步以 $1/2$ 的概率轉移到網頁 $A$ 和 $D$ 。如果瀏覽者在網頁 $C$ ，則下一步以概率 $1$ 轉移到網頁 $A$ 。如果瀏覽者在網頁 $D$ ，則下一步以 $1/2$ 的概率轉移到網頁 $B$ 和 $C$ 。

圖1 有向圖

直觀上，一個網頁，如果指向該網頁的超鏈接越多，隨機跳轉到該網頁的概率也就越高，該網頁的PageRank值就越高，這個網頁也就越重要。一個網頁，如果指向該網頁的PageRank值越高，隨機跳轉到該網頁的概率也就越高，該網頁的PageRank值就越高，這個網頁也就越重要。PageRank值依賴於網絡的拓撲結構，一旦網絡的拓撲(連接關系)確定，PageRank值就確定。

PageRank 的計算可以在互聯網的有向圖上進行，通常是一個迭代過程。先假設一個初始分布，通過迭代，不斷計算所有網頁的PageRank值，直到收斂為止。

下面首先給出有向圖及有向圖上隨機游走模型的定義，然后給出PageRank的基本定義，以及PageRank的一般定義。基本定義對應於理想情況，一般定義對應於現實情況。

1.2 有向圖和隨機游走模型

1.有向圖

定義1 (有向圖) 有向圖（directed graph）記作 $G = (V , E)$ ，其中 $V$ 和 $E$ 分別表示結點和有向邊的集合。

比如，互聯網就可以看作是一個有向圖，每個網頁是有向圖的一個結點，網頁之間的每一條超鏈接是有向圖的一條邊。

從一個結點出發到達另一個結點，所經過的邊的一個序列稱為一條路徑（path） , 路徑上邊的個數稱為路徑的長度。如果一個有向圖從其中任何一個結點出發可以到達其他任何一個結點，就稱這個有向圖是強連通圖（strongly connected graph）。圖1中的有向圖就是一個強連通圖。

假設 $k$ 是一個大於 $1$ 的自然數，如果從有向圖的一個結點出發返回到這個結點的路徑的長度都是 $k$ 的倍數，那么稱這個結點為周期性結點。如果一個有向圖不含有周期性結點，則稱這個有向圖為非周期性圖（aperiodic graph），否則為周期性圖。

圖2是一個周期性有向圖的例子。從結點 $A$ 出發返回到 $A$ ，必須經過路徑 $A-B-C-A$ ，所有可能的路徑的長度都是 $3$ 的倍數，所以結點 $A$ 是周期性結點。這個有向圖是周期性圖。

圖2 周期性有向圖

2. 隨機游走模型

定義2（隨機游走模型）給定一個含有 $n$ 個結點的有向圖，在有向圖上定義隨機游走（ random walk）模型，即一階馬爾可夫鏈，其中結點表示狀態，有向邊表示狀態之間的轉移，假設從一個結點到通過有向邊相連的所有結點的轉移概率相等。具體地，轉移矩陣是一個 $n$ 階矩陣 $M$

$M=[m_{ij}]_{n \times n}\tag{1}\\$

第 $i$ 行第 $j$ 列的元素 $m_{ij}$ 取值規則如下：如果結點 $j$ 有 $k$ 個有向邊連出，並且結點 $i$ 是其連出的一個結點，則 $m_{ij}=1/k$ ；否則 $m_{ij}=0$ , $i,j = 1,2, \cdots \cdots ,n$ 。

注意轉移矩陣具有性質: $m_{ij} \ge 0 \tag{2}\\$

$\sum\limits_{i = 1}^n {{m_{ij}} = 1} \tag{3}\\$

即每個元素非負，每列元素之和為 $1$ 即矩陣 $M$ 為隨機矩陣（stochastic matrix）。

在有向圖上的隨機游走形成馬爾可夫鏈。也就是說，隨機游走者每經一個單位時間轉移一個狀態，如果當前時刻在第 $j$ 個結點（狀態），那么下一個時刻在第 $i$ 個結點（狀態）的概率是 $m_{ij}$ 這一概率只依賴於當前的狀態，與過去無關，具有馬爾可夫性。

在圖1的有向圖上可以定義隨機游走模型。結點 $A$ 到結點 $B$ ， $C$ 和 $D$ 存在有向邊，可以以概率 $1/3$ 從 $A$ 分別轉移到 $B$ ， $C$ 和 $D$ ，並以概率 $0$ 轉移到 $A$ ，於是可以寫出轉移矩陣的第 $1$ 列。結點 $B$ 到結點 $A$ 和 $D$ 存在有向邊，可以以概率 $1/2$ 從 $B$ 分別轉移到 $A$ 和 $D$ ，並以概率 $0$ 分別轉移到 $B$ 和 $C$ ，於是可以寫出矩陣的第 $2$ 列，等等。於是得到轉移矩陣

$M=\left[\begin{array}{cccc} 0 & 1 / 2 & 1 & 0 \\ 1 / 3 & 0 & 0 & 1 / 2 \\ 1 / 3 & 0 & 0 & 1 / 2 \\ 1 / 3 & 1 / 2 & 0 & 0 \end{array}\right]\\$

隨機游走在某個時刻 $t$ 訪問各個結點的概率分布就是馬爾可夫鏈在時刻 $t$ 的狀態分布，可以用一個 $n$ 維列向量 $R_t$ 表示，那么在時刻 $t+1$ 訪問各個結點的概率分布 $R_{t+1}$ 滿足

$R_{t+1}=MR_t\tag{4}\\$

1.3 PageRank 的基本定義

給定一個包含 $n$ 個結點的強連通且非周期性的有向圖，在其基礎上定義隨機游走模型。假設轉移矩陣為 $M$ ，在時刻 $0,1,2, \cdots ,t, \cdots$ 訪問各個結點的概率分布為

${R_0},M{R_0},{M^2}{R_0}, \cdots ,{M^t}{R_0}, \cdots \\$

則極限

$\mathop {\lim }\limits_{t \to \infty } {M^t}{R_0} = R\tag{5}\\$

存在，極限向量 $R$ 表示馬爾可夫鏈的平穩分布，滿足

$MR=R\\$

定義3 （PageRank 的基本定義）給定一個包含 $n$ 個結點 ${v_1},{v_2}, \cdots ,{v_n}$ 的強連通且非周期性的有向圖，在有向圖上定義隨機游走模型，即一階馬爾可夫鏈。隨機游走的特點是從一個結點到有有向邊連出的所有結點的轉移概率相等，轉移矩陣為 $M$ 。這個馬爾可夫鏈具有平穩分布 $R$

$MR=R\tag{6}\\$

平穩分布 $R$ 稱為這個有向圖的 PageRank。 $R$ 的各個分量稱為各個結點的 $PageRank$ 值。

$R=\left[\begin{array}{c} P R\left(v_{1}\right) \\ P R\left(v_{2}\right) \\ \vdots \\ P R\left(v_{n}\right) \end{array}\right]\\$

其中 $PR(V_i)$ , $i = 1,2, \cdots ,n$ ，表示結點的的 PageRank 值。

顯然有

$P R\left(v_{i}\right) \geqslant 0, \quad i=1,2, \cdots, n \tag{7}\\$

$\sum_{i=1}^{n} P R\left(v_{i}\right)=1 \tag{8}\\$

$P R\left(v_{i}\right)=\sum_{v_{j} \in M\left(v_{i}\right)} \frac{P R\left(v_{j}\right)}{L\left(v_{j}\right)}, \quad i=1,2, \cdots, n\tag{9}\\$

這里 $M(v_i)$ 表示指向結點 $v_i$ 的結點集合， $L(v_j)$ 表示結點 $v_j$ 連出的有向邊的個數。

PageRank的基本定義是理想化的情況，在這種情況下，PageRank存在，而且可以通過不斷迭代求得PageRank值。

定理1 不可約且非周期的有限狀態馬爾可夫鏈，有唯一平穩分布存在，並且當時間趨於無窮時狀態分布收斂於唯一的平穩分布。

根據馬爾可夫鏈平穩分布定理，強連通且非周期的有向圖上定義的隨機游走模型（馬爾可夫鏈），在圖上的隨機游走當時間趨於無窮時狀態分布收斂於唯一的平穩分布。

1.4 PageRank 的一般定義

PageRank 一般定義的想法是在基本定義的基礎上導入平滑項。

給定一個含有 $n$ 個結點 $v_i$ ， $i = 1,2, \cdots ,n$ ，的任意有向圖，假設考慮一個在圖上隨機游走模型，即一階馬爾可夫鏈，其轉移矩陣是 $M$ ，從一個結點到其連出的所有結點的轉移概率相等。這個馬爾可夫鏈未必具有平穩分布。假設考慮另一個完全隨機游走的模型，其轉移矩陣的元素全部為 $1/n$ ，也就是說從任意一個結點到任意一個結點的轉移概率都是 $1/n$ 。兩個轉移矩陣的線性組合又構成一個新的轉移矩陣，在其上可以定義一個新的馬爾可夫鏈。容易證明這個馬爾可夫鏈一定具有平穩分布，且平穩分布滿足

$R=dMR+\frac {1-d} n \matrix 1\tag{10}\\$

式中 $d(0 \le d \le 1)$ 是系數，稱為阻尼因子（damping factor）, $R$ 是 $n$ 維向量， $\matrix 1$ 是所有分量為 $1$ 的 $n$ 維向量。 $R$ 表示的就是有向圖的一般PageRank。

式（10）中第一項表示（狀態分布是平穩分布時）依照轉移矩陣 $M$ 訪問各個結點的概率，第二項表示完全隨機訪問各個結點的概率。阻尼因子 $d$ 取值由經驗決定，例如 $d = 0.85$ 。當 $d$ 接近 $1$ 時，隨機游走主要依照轉移矩陣 $M$ 進行；當 $d$ 接近 $0$ 時，隨機游走主要以等概率隨機訪問各個結點。

可以由式 (10) 寫出每個結點的 PageRank，這是一般 PageRank 的定義。

$P R\left(v_{i}\right)=d\left(\sum_{v_{j} \in M\left(v_{i}\right)} \frac{P R\left(v_{j}\right)}{L\left(v_{j}\right)}\right)+\frac{1-d}{n}, \quad i=1,2, \cdots, n\tag{11}\\$

第二項稱為平滑I頁，由於采用平滑項，所有結點的 PageRank 值都不會為 0，具有以下性質:

$P R\left(v_{i}\right)>0, \quad i=1,2, \cdots, n\tag{12}\\$ $\sum_{i=1}^{n} P R\left(v_{i}\right)=1\tag{13}\\$

下面給出 PageRank 的一般定義。

定義 4（PageRank 的一般定義）給定一個含有 $n$ 個結點的任意有向圖，在有向圖上定義一個一般的隨機游走模型，即一階馬爾可夫鏈。一般的隨機游走模型的轉移矩陣由兩部分的線性組合組成，一部分是有向圖的基本轉移矩陣 $M$ ，表示從一個結點到其連出的所有結點的轉移概率相等，另一部分是完全隨機的轉移矩陣，表示從任意一個結點到任意一個結點的轉移概率都是 $1/n$ ，線性組合系數為阻尼因子 $d(0 \le d \le 1)$ 。這個一般隨機游走的馬爾可夫鏈存在平穩分布，記作 $R$ 。定義平穩分布向量 $R$ 為這個有向圖的一般 PageRank。 $R$ 由公式

$R=dMR+\frac {1-d} n \matrix 1\tag{14}\\$

決定，其中 $\matrix1$ 是所有分量為 $1$ 的 $n$ 維向量。

一般 PageRank 的定義意味着互聯網瀏覽者，按照以下方法在網上隨機游走：任意一個網頁上，瀏覽者或者以概率 $d$ 決定按照超鏈接隨機跳轉，這時以等概率從連接出去的超鏈接跳轉到下一個網頁；或者以概率 $(1-d)$ 決定完全隨機跳轉，這時以等概率 $1/n$ 跳轉到任意一個網頁。第二個機制保證從沒有連接出去的超鏈接的網頁也可以跳轉出。這樣可以保證平穩分布，即一般 PageRank 的存在，因而一般 PageRank 適用於任何結構的網絡。