短URL生成


算法原理 算法一 1)將長網址md5生成32位簽名串,分為4段, 每段8個字節; 2)對這四段循環處理, 取8個字節, 將他看成16進制串與0x3fffffff(30位1)與操作, 即超過30位的忽略處理; 3)這30位分成6段, 每5位的數字作為字母表的索引取得特定字符, 依次進行獲得6位字符串; 4)總的md5串可以獲得4個6位串; 取里面的任意一個就可作為這個長url的短url地址;

這種算法,雖然會生成4個,但是仍然存在重復幾率.

算法二 a-zA-Z0-9 這64位取6位組合,可產生500多億個組合數量.把數字和字符組合做一定的映射,就可以產生唯一的字符串,如第62個組合就是aaaaa9,第63個組合就是aaaaba,再利用洗牌算法,把原字符串打亂后保存,那么對應位置的組合字符串就會是無序的組合。 把長網址存入數據庫,取返回的id,找出對應的字符串,例如返回ID為1,那么對應上面的字符串組合就是bbb,同理 ID為2時,字符串組合為bba,依次類推,直至到達64種組合后才會出現重復的可能,所以如果用上面的62個字符,任意取6個字符組合成字符串的話,你的數據存量達到500多億后才會出現重復的可能。 具體參看這里徹底完善新浪微博接口和超短URL算法,算法四可以算作是此算法的一種實現,此算法一般不會重復,但是如果是統計的話,就有很大問題,特別是對域名相關的統計,就抓瞎了.

一個簡單的python生成短鏈接的方法

import hashlib  
 
def get_md5(s):  
    s = s.encode('utf8') if isinstance(s, unicode) else s  
    m = hashlib.md5()  
    m.update(s)  
    return m.hexdigest()  
 
code_map = (  
           'a' , 'b' , 'c' , 'd' , 'e' , 'f' , 'g' , 'h' ,  
           'i' , 'j' , 'k' , 'l' , 'm' , 'n' , 'o' , 'p' ,  
           'q' , 'r' , 's' , 't' , 'u' , 'v' , 'w' , 'x' ,  
           'y' , 'z' , '0' , '1' , '2' , '3' , '4' , '5' ,  
           '6' , '7' , '8' , '9' , 'A' , 'B' , 'C' , 'D' ,  
           'E' , 'F' , 'G' , 'H' , 'I' , 'J' , 'K' , 'L' ,  
           'M' , 'N' , 'O' , 'P' , 'Q' , 'R' , 'S' , 'T' ,  
           'U' , 'V' , 'W' , 'X' , 'Y' , 'Z'  
            )  
 
 
def get_hash_key(long_url):  
    hkeys = []  
    hex = get_md5(long_url)  
    for i in xrange(0, 1):  
        n = int(hex[i*8:(i+1)*8], 16)  
        v = []  
        e = 0  
        for j in xrange(0, 8):  
            x = 0x0000003D & n  
            e |= ((0x00000002 & n ) >> 1) << j  
            v.insert(0, code_map[x])  
            n = n >> 6  
        e |= n << 5  
        v.insert(0, code_map[e & 0x0000003D])  
        hkeys.append(''.join(v))  
    return hkeys[0]  
 
if __name__ == '__main__':  
    print get_hash_key('http://www.a2asdfasdfasfdbc.com')


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM