PageRank算法的思想

本文轉載自查看原文 2020-05-14 21:23 625 [41]Algorithm算法

基於勝率矩陣的PageRank排序

在做博弈模型評估的時候，遇到一個問題是如何評價多個模型的優劣。例如我有訓練好的三個圍棋模型A,B,C，兩兩之間對打之后有一個勝負關系，如何對這三個模型進行排序呢？通常對於人類選手這種水平有波動的情形，棋類比賽通常計算選手Elo得分按分值排序，足球籃球等通過聯賽積分或勝場進行排序，但對於固定不變的AI模型，我認為用類似PageRank的方式計算更方便也更加准確。

這篇文章先從問題來源講起，再講解PageRank算法的思想，最后編程實現排序方法並指出一些需要注意的地方。

現在，深度強化學習更多的用在博弈模型的訓練當中，比如圍棋的AlphaZero，星際爭霸的AlphaStar,DOTA的OpenAI FIVE。比如我們已經訓練好了三個模型A，B，C，並且可以相互對打很多局，我們需要一個方法排出誰第一，誰第二。之前NeurIPS2019多智能體競賽設計的排序方法就存在明顯的bug,出現了A能勝過B，且A對C的勝率高於B對C的勝率，最后算出的排名卻是B更靠前。主辦方也承認了計算方式有缺陷並表示會在之后的比賽中修正，但是當前排名維持不變。

那為什么成熟的Elo值計算方式沒有用在這類模型評估上面呢？Elo值通常用在圍棋、象棋等棋類排名上，電子競技例如英雄聯盟等也可以認為是類似Elo的積分方式。這類問題的特點是

可通過一對一比賽得到一局的勝負關系，但和相同對手的對局次數有限，很難得到穩定的勝率關系。
玩家水平並非固定不變，可隨環境、狀態等因素波動（臨場發揮），也可因長期訓練/荒廢而提升/下降（絕對實力）。

我們需要根據這種1v1(or 5v5)的每一局的勝負關系，給出所有玩家的即時能力大小排序。由於每個人的水平都會因為身體因素、年齡因素等產生波動，這和一個固定的模型是不一樣的。而Elo可以根據每一局的實時對局結果立即更新當前排名，對棋類、競技體育等的時效性需求非常適合，也可以較為准確的反應玩家的當前水平排名。雖然它也不是絕對的准確，不過已經是針對這類需求很好的排序方法了。

回過頭來，對於已經訓練好的AI模型，它的能力不會發生變化，並且我們可以通過足夠多的測試得到兩兩之間的准確勝率關系，這種情況下我們如果強行套Elo的算法一局一局挑選對手對打，更新Elo值，再挑對手對打，再更新Elo值，就會顯得沒有必要(因為我們並不關心每一局后的實時排名)而且很麻煩，再者如果中途有一個新加入的模型需要從0開始評估，要想得到較為穩定的排名關系就會顯得更加麻煩。

而PageRank的方法可以充分利用模型之間容易得到的穩定勝負關系，用矩陣迭代的方式計算出最終排名，簡單且准確。

二、PageRank算法

算法思想

PageRank算法是Google發明用來做網頁排序的，依據網頁之間的鏈接關系對網頁重要度進行排序。其主要設計思想如下

(1) 每個網頁的初始重要程度相同,比如
(2) 如果許多網頁
(3) 如果某個重要的網頁

這個想法其實和paper的引用有相似之處，每一篇新paper剛發表,很難評價其質量，可以粗略認為paper質量都一樣；如果有一篇paper被引用很多，那么這篇paper肯定質量比較好；如果某偏很好的paper引用了另一篇paper，那這篇被引用的paper也理應質量不錯。

基於這三點主要思想，我們假定有a,b,c,d四個網址，其鏈接關系如圖所示

首先根據思想(1),假定每個網頁的初始重要度相同，比如都是1，則有重要度向量

T i, j = {1, i f j \to i 0, o t h e r w i s e

其中

x' (a) = 1 \times T a, a + 1 \times T a, b + 1 \times T a, c + 1 \times T a

同理有

T i, j \leftarrow {1 \sum k \in { a , b , c , d } T k , j , i f \exists j

此時，我們有

x' (a) = 1 \times T a, a + 1 \times T a, b + 1 \times T a, c + 1 \times T a

同理有

x'' (a) = x' (a) \times T a, a + x' (b) \times T a, b + x' (

同理有

x = ⎛⎝⎜⎜⎜ 1 1 1 1 ⎞⎠⎟⎟⎟,

那么前兩次迭代可以表示為

x' = T x;

經過無窮次迭代

數學原理

如果我們把這個問題看作一個馬氏(隨機)過程，那么四個網頁組成的向量

定理: 若馬氏鏈不可約且正常返，則平穩分布存在且唯一。

不可約：通俗來說，就是每個狀態都可以通過一步或者多步轉移到達任意另一個狀態。
正常返：可以理解為每個狀態在有限步轉移后再回到自己的概率為1。

如下圖所示例子

從圖中可以看出，

x 1 = ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜ 0.1 0.2 0.3 0.1 0.1 0.2 ⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟,

狀態轉移矩陣為

T = ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜ 0 1 0 0 0 0 0 0 1 0 0 0 0.5 0

則有

x \infty 1 = T \infty x 1 = ⎛⎝⎜⎜⎜⎜⎜⎜⎜⎜ 0 0 0 0 0.45 0.55 ⎞⎠⎟⎟⎟⎟⎟⎟⎟⎟,

顯然

三、實例分析

通過前述方式構建勝率矩陣，我們可以算得平穩分布，但還有一些實際問題需要微調算法。

對角線取值

在之前的網頁排序里，對角線的元素被取為0，如果在勝率矩陣中也取為0，會出現錯誤的排序。假如勝率矩陣為

    a b c a 0 0.2 0.9 b 0.8 0 1 c 0.1 0 0

其中

import numpy as np

T = np.matrix([[0 ,0.2,0.9], [0.8, 0 , 1 ], [0.1, 0 , 0 ]]) for i in range(T.shape[0]): # 歸一化為狀態轉移概率矩陣 T[:,i] = T[:,i]/np.sum(T[:,i]) X = np.matrix([1/3,1/3,1/3]) # 初始分布 X = X.T print(T) print(T**2000*X)

得到

T: 
[[0. 1. 0.47368421] [0.88888889 0. 0.52631579] [0.11111111 0. 0. ]] X： [[0.48579545] [0.46022727] [0.05397727]]

可以發現

    a b c a 0.5 0.2 0.9 b 0.8 0.5 1 c 0.1 0 0.5

計算得到

T：
[[0.35714286 0.28571429 0.375 ] [0.57142857 0.71428571 0.41666667] [0.07142857 0. 0.20833333]] X： [[0.31038506] [0.66161027] [0.02800467]]

可以看到，這個結果是合理的。同時這種方式還可以防止某一列出現全為0的情形。

構造不可約且正常返

通常我們需要考慮到各種勝負關系的情況，來保證平穩分布存在且唯一。假如勝率矩陣為

    a b c a 0.5 1 1 b 0 0.5 0.3 c 0 0.7 0.5

可以看出

T：
[[1. 0.45454545 0.55555556] [0. 0.22727273 0.16666667] [0. 0.31818182 0.27777778]] X: [[1.] [0.] [0.]]

可以發現

E = ⎛⎝⎜⎜ 1 3 1 3 1 3 1 3 1 3 1 3 1 3

其中權重參數

T = np.matrix([[0.5, 1 , 1 ],
               [ 0 ,0.5,0.3],
               [ 0 ,0.7,0.5]])

for i in range(T.shape[0]): # 歸一化為狀態轉移概率矩陣 T[:,i] = T[:,i]/np.sum(T[:,i]) E = np.matrix(np.ones_like(T))/T.shape[0] alpha = 1e-3 S = (1-alpha)*T+alpha*E X = np.matrix([1/3,1/3,1/3]) # 初始分布 X = X.T print(S) print(S**2000*X)

得到

S:
[[9.99333333e-01 4.54424242e-01 5.55333333e-01] [3.33333333e-04 2.27378788e-01 1.66833333e-01] [3.33333333e-04 3.18196970e-01 2.77833333e-01]] X: [[9.98694573e-01] [5.86177258e-04] [7.19249506e-04]]

此結果合理，且可以看出

完整代碼及示例

最終代碼封裝為函數：

def pagerank(T): assert type(T) == np.matrix, 'please use np.matrix' for i in range(T.shape[0]): T[:,i] = T[:,i]/np.sum(T[:,i]) E = np.matrix(np.ones_like(T))/T.shape[0] alpha = 1e-3 S = (1-alpha)*T+alpha*E X = np.matrix([1]*T.shape[0])/T.shape[0] X = X.T score = S**200*X return score

我們給一個不太好肉眼判斷的勝率關系如下：

    a b c a 0.5 0.6 0.3 b 0.4 0.5 0.6 c 0.7 0.4 0.5

這里三個模型出現了相互克制的情形，即

score：
matrix([[0.30789762], [0.34109655], [0.35100582]])

可得排序關系

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 PageRank算法 PageRank算法 PageRank算法 PageRank算法 PageRank算法 PageRank算法 PageRank算法 PageRank算法的定義與來源、以及PageRank算法原理 PageRank算法初探淺析PageRank算法