統計分布-Zipf分布


這是我原來流媒體網的博客,但是它們居然關了...  這里應該沒有那么容易掛

對於CDN的內容管理,有一個基本定律,就是大家常說對於內容的訪問遵循80/20原則,也就是20%的內容,會占有80%的訪問量。

這是一個定性的原則,定量來說,內容訪問近似符合Zipf定律(Zipf's law), 這個定律是美國語言學家Zipf發現的,他在1932年研究英文單詞的出現頻率時,發現如果把單詞頻率從高到低的次序排列,每個單詞出現頻率和它的符號訪問排名存在簡單反比關系:

 

這里 r 表示一個單詞的出現頻率的排名,P(r)表示排名為r的單詞的出現頻率.

(單詞頻率分布中 C約等於0.1, a約等於1)

后人將這個分布稱為齊夫分布,這個分布是一個統計型的經驗規律,描述了這樣一個定理:只有少數英文單詞經常被使用,大部分的單詞很少被使用。這個定理也在很多分布里面得到了驗證,比如人們的收入,互聯網的網站數量和訪問比例,互聯網內容和訪問比例(其他分布兩個常數有所不同,a越大,分布越密集,對於VOD來說某些時候符合雙zipf分布)。

 

下面是某個系統VOD內容的訪問分布,第一幅圖是訪問頻率曲線,Y軸是內容的訪問次數,X軸是內容根據訪問次數的排名, 我們可以看到,多數訪問集中於少量內容上:

 

 


第二幅圖是對數軸的訪問頻率曲線,源數據和上圖一致,可以看到近似為一條直線:



 

從曲線的斜率可以計算出,這里的內容訪問頻率分布,a約等於0.6(不同種類的內容a的大小也不一樣)。

源自瓜少的博客:http://blog.lmtw.com/b/peon/archives/2006/39703.html#


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM