PageRank算法:
-
該算法本質上屬於有向帶權圖。
-
對於某個互聯網網頁A來說,該網頁PageRank的計算基於以下兩個基本假設:
- 數量假設:在Web圖模型中,如果一個頁面節點接收到的其他網頁指向的入鏈數量越多,那么這個頁面越重要。
- 質量假設:指向頁面A的入鏈質量不同,質量高的頁面會通過鏈接向其他頁面傳遞更多的權重。所以越是質量高的頁面指向頁面A,則頁面A越重要。
-
迭代方法:
- map: 在一輪更新頁面PageRank得分的計算中,每個頁面將其當前的PageRank值平均分配到本頁面包含的出鏈上,這樣每個鏈接即獲得了相應的權值。
- reduce: 而每個頁面將所有指向本頁面的入鏈所傳入的權值求和,即可得到新的PageRank得分。當每個頁面都獲得了更新后的PageRank值,就完成了一輪PageRank計算。
- 我的理解是下一時刻PR值與前一時刻的PR值無直接關系,只取決於入度的權重。
-
阻尼系數:
- 由於存在一些出鏈為0,也就是那些不鏈接任何其他網頁的網, 也稱為孤立網頁,使得很多網頁能被訪問到。因此需要對 PageRank公式進行修正,即在簡單公式的基礎上增加了阻尼系數\(q\), \(q\)一般取值\(q=0.85\)。
- \(1-q= 0.15\)就是用戶停止點擊,隨機跳到新URL的概率
-
PageRank計算得出的結果是網頁的重要性評價,這和用戶輸入的查詢是沒有任何關系的,即算法是主題無關的。是一個與查詢無關的靜態算法,所有網頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。
-
缺點:
-
人們的查詢具有主題特征,PageRank忽略了主題相關性,導致結果的相關性和主題性降低。
-
舊的頁面等級會比新頁面高。因為即使是非常好的新頁面也不會有很多上游鏈接,除非它是某個站點的子站點。
-
TextRank算法
- 本質上屬於無向帶權圖。
- 將有向圖算法改進為無向圖算法,不再區分結點的指向性,而只關注結點的鄰居結點及本身的連通度。
- 具有較高權重的結點也被認為與更多重要結點具有較高的連通度,可以抽象為網絡的“中心”,而在多文檔文摘中,中心結點代表包含重要信息的文摘句。