PageRank算法:

該算法本質上屬於有向帶權圖。
對於某個互聯網網頁A來說，該網頁PageRank的計算基於以下兩個基本假設：
- 數量假設：在Web圖模型中，如果一個頁面節點接收到的其他網頁指向的入鏈數量越多，那么這個頁面越重要。
- 質量假設：指向頁面A的入鏈質量不同，質量高的頁面會通過鏈接向其他頁面傳遞更多的權重。所以越是質量高的頁面指向頁面A，則頁面A越重要。
迭代方法：
- map: 在一輪更新頁面PageRank得分的計算中，每個頁面將其當前的PageRank值平均分配到本頁面包含的出鏈上，這樣每個鏈接即獲得了相應的權值。
- reduce: 而每個頁面將所有指向本頁面的入鏈所傳入的權值求和，即可得到新的PageRank得分。當每個頁面都獲得了更新后的PageRank值，就完成了一輪PageRank計算。
  - 我的理解是下一時刻PR值與前一時刻的PR值無直接關系，只取決於入度的權重。
阻尼系數：
- 由於存在一些出鏈為0，也就是那些不鏈接任何其他網頁的網，也稱為孤立網頁，使得很多網頁能被訪問到。因此需要對 PageRank公式進行修正，即在簡單公式的基礎上增加了阻尼系數\(q\)， \(q\)一般取值\(q=0.85\)。
- \(1-q= 0.15\)就是用戶停止點擊，隨機跳到新URL的概率
PageRank計算得出的結果是網頁的重要性評價，這和用戶輸入的查詢是沒有任何關系的，即算法是主題無關的。是一個與查詢無關的靜態算法，所有網頁的PageRank值通過離線計算獲得；有效減少在線查詢時的計算量，極大降低了查詢響應時間。
缺點:
- 人們的查詢具有主題特征，PageRank忽略了主題相關性，導致結果的相關性和主題性降低。
- 舊的頁面等級會比新頁面高。因為即使是非常好的新頁面也不會有很多上游鏈接，除非它是某個站點的子站點。

TextRank算法

本質上屬於無向帶權圖。
將有向圖算法改進為無向圖算法，不再區分結點的指向性，而只關注結點的鄰居結點及本身的連通度。
具有較高權重的結點也被認為與更多重要結點具有較高的連通度，可以抽象為網絡的“中心”，而在多文檔文摘中，中心結點代表包含重要信息的文摘句。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 PageRank算法詳解詳解PageRank算法 TextRank算法 TextRank算法 PageRank算法 PageRank算法 PageRank算法 PageRank算法 PageRank算法 PageRank算法