這是我原來流媒體網的博客,但是它們居然關了... 這里應該沒有那么容易掛
對於CDN的內容管理,有一個基本定律,就是大家常說對於內容的訪問遵循80/20原則,也就是20%的內容,會占有80%的訪問量。
這是一個定性的原則,定量來說,內容訪問近似符合Zipf定律(Zipf's law), 這個定律是美國語言學家Zipf發現的,他在1932年研究英文單詞的出現頻率時,發現如果把單詞頻率從高到低的次序排列,每個單詞出現頻率和它的符號訪問排名存在簡單反比關系:
這里 r 表示一個單詞的出現頻率的排名,P(r)表示排名為r的單詞的出現頻率.
(單詞頻率分布中 C約等於0.1, a約等於1)
后人將這個分布稱為齊夫分布,這個分布是一個統計型的經驗規律,描述了這樣一個定理:只有少數英文單詞經常被使用,大部分的單詞很少被使用。這個定理也在很多分布里面得到了驗證,比如人們的收入,互聯網的網站數量和訪問比例,互聯網內容和訪問比例(其他分布兩個常數有所不同,a越大,分布越密集,對於VOD來說某些時候符合雙zipf分布)。
下面是某個系統VOD內容的訪問分布,第一幅圖是訪問頻率曲線,Y軸是內容的訪問次數,X軸是內容根據訪問次數的排名, 我們可以看到,多數訪問集中於少量內容上:
第二幅圖是對數軸的訪問頻率曲線,源數據和上圖一致,可以看到近似為一條直線:
從曲線的斜率可以計算出,這里的內容訪問頻率分布,a約等於0.6(不同種類的內容a的大小也不一樣)。
源自瓜少的博客:http://blog.lmtw.com/b/peon/archives/2006/39703.html#