加權隨機算法一般應用在以下場景:有一個集合S,里面比如有A,B,C,D這四項。這時我們想隨機從中抽取一項,但是抽取的概率不同,比如我們希望抽到A的概率是50%,抽到B和C的概率是20%,D的概率是10%。一般來說,我們可以給各項附一個權重,抽取的概率正比於這個權重。那么上述集合就成了:
{A:5,B:2,C:2,D:1}
方法一:
擴展這個集合,使每一項出現的次數與其權重正相關。在上述例子這個集合擴展成:
{A,A,A,A,A,B,B,C,C,D}
然后就可以用均勻隨機算法來從中選取。
好處:選取的時間復雜度為O(1),算法簡單。
壞處:空間占用極大。另外如果權重數字位數較大,例如{A:49.1 B:50.9}的時候,就會產生巨大的空間浪費。
方法二:
計算權重總和sum,然后在1到sum之間隨機選擇一個數R,之后遍歷整個集合,統計遍歷的項的權重之和,如果大於等於R,就停止遍歷,選擇遇到的項。
還是以上面的集合為例,sum等於10,如果隨機到1-5,則會在遍歷第一個數字的時候就退出遍歷。符合所選取的概率。
好處:沒有額外的空間占用,算法也比較簡單。
壞處:選取的時候要遍歷集合,時間復雜度是O(n)。
方法三:
可以對方法二進行優化,對項目集按照權重排序。這樣遍歷的時候,概率高的項可以很快遇到,減少遍歷的項。
比較{A:5,B:2,C:2,D:1}和{B:2,C:2,A:5,D:1}
前者遍歷步數的期望是5/10*1+2/10*2+2/10*3+1/10*4而后者是2/10*1+2/10*2+5/10*3+1/10*4。
好處:提高了平均選取速度。
壞處:需要進行排序,並且不易添加刪除修改項。
問題:
例如我們要選從不同省份選取一個號碼,每個省份的權重不一樣,直接選隨機數肯定是不行的了,就需要一個模型來解決這個問題。
簡化成下面的問題:
字典的key代表是省份,value代表的是權重,我們現在需要一個函數,每次基於權重選擇一個省份出來
{"A":2, "B":2, "C":4, "D":10, "E": 20}
解決:
這是能想到和能看到的最多的版本,不知道還沒有更高效好用的算法。
- #!/usr/bin/env python
- # -*- coding: utf-8 -*-
- #python2.7x
- #random_weight.py
- #author: orangleliu@gmail.com 2014-10-11
- '''''
- 每個元素都有權重,然后根據權重隨機取值
- 輸入 {"A":2, "B":2, "C":4, "D":10, "E": 20}
- 輸出一個值
- '''
- import random
- import collections as coll
- data = {"A":2, "B":2, "C":4, "D":6, "E": 11}
- #第一種 根據元素權重值 "A"*2 ..等,把每個元素取權重個元素放到一個數組中,然后最數組下標取隨機數得到權重
- def list_method():
- all_data = []
- for v, w in data.items():
- temp = []
- for i in range(w):
- temp.append(v)
- all_data.extend(temp)
- n = random.randint(0,len(all_data)-1)
- return all_data[n]
- #第二種 也是要計算出權重總和,取出一個隨機數,遍歷所有元素,把權重相加sum,當sum大於等於隨機數字的時候停止,取出當前的元組
- def iter_method():
- total = sum(data.values())
- rad = random.randint(1,total)
- cur_total = 0
- res = ""
- for k, v in data.items():
- cur_total += v
- if rad<= cur_total:
- res = k
- break
- return res
- def test(method):
- dict_num = coll.defaultdict(int)
- for i in range(100):
- dict_num[eval(method)] += 1
- for i,j in dict_num.items():
- print i, j
- if __name__ == "__main__":
- test("list_method()")
- print "-"*50
- test("iter_method()")
一次執行的結果
- A 4
- C 14
- B 7
- E 44
- D 31
- --------------------------------------------------
- A 8
- C 16
- B 6
- E 43
- D 27
