【轉】URL短地址壓縮算法 微博短地址原理解析 (Java實現)


轉自: URL短地址壓縮算法 微博短地址原理解析 (Java實現)

     最近,項目中需要用到短網址(ShortUrl)的算法,於是在網上搜索一番,發現有C#的算法,有.Net的算法,有PHP的算法,就是沒有找到Java版的短網址(ShortUrl)的算法,很是郁悶。同時還發現有不少網友在發帖求助,怎么實現Java版的短網址(ShortUrl)的算法。干脆一不做,二不休,參考了一下網上比較流行的PHP版短網址(ShortUrl)算法:

再根據自己的理解,用Java實現了該短網址(ShortUrl)的算法。(\(^o^)/YES!我還真厲害!)

先來廢話一下,是在別人的帖子上看到的,主要是讓大家了解一下短網址(ShortUrl)。

時下,短網址應用已經在全國各大微博上開始流行了起來。例如QQ微博的url.cn,新郎的t.cn等。

我們在新浪微博上發布網址的時候,微博會自動判別網址,並將其轉換,例如:http://t.cn/hrYnr0。為什么要這樣做的,原因我想有這樣幾點:

1、微博限制字數為140字一條,那么如果我們需要發一些連接上去,但是這個連接非常的長,以至於將近要占用我們內容的一半篇幅,這肯定是不能被允許的,所以短網址應運而生了。

2、短網址可以在我們項目里可以很好的對開放級URL進行管理。有一部分網址可以會涵蓋性、暴力、廣告等信息,這樣我們可以通過用戶的舉報,完全管理這個連接將不出現在我們的應用中,應為同樣的URL通過加密算法之后,得到的地址是一樣的。

3、我們可以對一系列的網址進行流量,點擊等統計,挖掘出大多數用戶的關注點,這樣有利於我們對項目的后續工作更好的作出決策。

其實以上三點純屬個人觀點,因為在我接下來的部分項目中會應用到,所以就了解了一下,下面先來看看短網址映射算法的理論(網上找到的資料):

① 將長網址用md5算法生成32位簽名串,分為4段,,每段8個字符;

② 對這4段循環處理,取每段的8個字符, 將他看成16進制字符串與0x3fffffff(30位1)的位與操作,超過30位的忽略處理;

③ 將每段得到的這30位又分成6段,每5位的數字作為字母表的索引取得特定字符,依次進行獲得6位字符串;

④ 這樣一個md5字符串可以獲得4個6位串,取里面的任意一個就可作為這個長url的短url地址。

很簡單的理論,我們並不一定說得到的URL是唯一的,但是我們能夠取出4組URL,這樣幾乎不會出現太大的重復。

首先,請大家了解在Java中如何用MD5來加密字符串得到32位的加密后的字符串,下面是我已經封裝好的Java MD5算法:

private final static String[] hexDigits = {
      "0", "1", "2", "3", "4", "5", "6", "7", 
      "8", "9", "a", "b", "c", "d", "e", "f"}; 

    public static String byteArrayToHexString(byte[] b){
        StringBuffer resultSb = new StringBuffer();
        for (int i = 0; i < b.length; i++){
            resultSb.append(byteToHexString(b[i]));
        }
        return resultSb.toString();
    }

    private static String byteToHexString(byte b){
        int n = b;
        if (n < 0)
            n = 256 + n;
        int d1 = n / 16;
        int d2 = n % 16;
        return hexDigits[d1] + hexDigits[d2];
    }

    public static String MD5Encode(String origin){
        String resultString = null;
            try {
                
                resultString=new String(origin);
                MessageDigest md = MessageDigest.getInstance("MD5");
                
                resultString.trim();

                resultString=byteArrayToHexString(md.digest(resultString.getBytes("UTF-8")));
            }catch (Exception ex){}
            return resultString;
        }

    public static void main(String[] args) 
    {
    
        String data = "189022881112011111118:09sz0000123456789987654321";
        System.out.println(MD5Encode(data));
    }

 

public class ShortUrl { 
    public static void main(String[] args) { 
        String url = "http://www.sunchis.com"; 
        for (String string : ShortText(url)) { 
            print(string); 
        } 
    } 
     
    public static String[] ShortText(String string){ 
        String key = "XuLiang";                 //自定義生成MD5加密字符串前的混合KEY 
        String[] chars = new String[]{          //要使用生成URL的字符 
            "a","b","c","d","e","f","g","h", 
            "i","j","k","l","m","n","o","p", 
            "q","r","s","t","u","v","w","x", 
            "y","z","0","1","2","3","4","5", 
            "6","7","8","9","A","B","C","D", 
            "E","F","G","H","I","J","K","L", 
            "M","N","O","P","Q","R","S","T", 
            "U","V","W","X","Y","Z" 
        }; 
         
        String hex = MD5Encode(key + string); 
        int hexLen = hex.length(); 
        int subHexLen = hexLen / 8; 
        String[] ShortStr = new String[4]; 
         
        for (int i = 0; i < subHexLen; i++) { 
            String outChars = ""; 
            int j = i + 1; 
            String subHex = hex.substring(i * 8, j * 8); 
            long idx = Long.valueOf("3FFFFFFF", 16) & Long.valueOf(subHex, 16); 
             
            for (int k = 0; k < 6; k++) { 
                int index = (int) (Long.valueOf("0000003D", 16) & idx); 
                outChars += chars[index]; 
                idx = idx >> 5; 
            } 
            ShortStr[i] = outChars; 
        } 
         
        return ShortStr; 
    } 
     
    private static void print(Object messagr){ 
        System.out.println(messagr); 
    } 
} 

 

下面來看看程序部分:現在可以直接使用ShortText(url)方法,可以等到下面四組值:

ShortText("http://www.sunchis.com")[0];  //得到值:Jzyqma 
ShortText("http://www.sunchis.com")[1];  //得到值:QBrMzm 
ShortText("http://www.sunchis.com")[2];  //得到值:bQreM3 
ShortText("http://www.sunchis.com")[3];  //得到值:VNBRna 

選取結果中四個值的任何一個值即可作為URL對應生成的短網址了。

 

一些評論:

原網址和短地址一一對應的存儲在數據庫中

在新浪發表一篇微博,它自己進入短網址轉換模塊,轉換的時候就生成了一串短網址,並存入了數據庫,當你在新浪微博里點擊http://t.cn/h5mwx 這個網址,那么說t.cn就會自動去數據庫查詢對應的長網址,並讓你的瀏覽器順利抵達終點,所以短網址一般都會跟一個短域名,否則誰也沒辦法解析...比如騰訊的短網址,它的短域名可能就不是t.cn了吧...

MD5不可逆

 

Q:我很奇怪為什么要使用MD5來做,最簡單直接的思路:建一個簡單的數據表,第1列是id,自增長,第2列是原URL。這種方式也很好,完全可以搞定。
請教各位,使用MD5的方法在哪些方面要優於我這個方法?

A:用這種方法很容易讓競爭對手把URL庫給遍歷了去,但是假如我們只考慮效率,不考慮其他。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM