什么是雪花算法？

本文轉載自查看原文 2020-07-26 16:04 4104 java

之前在一家公司曾經和項目經理爭論過到底是用mysql數據庫自增主鍵做主鍵ID，還是用字符串做主鍵ID，然后引起每個部門每個大佬都有不同的意見，簡直就是大混戰，每一個人都不服其他人，最后導致有的項目用了字符串做主鍵ID，有的項目用mysql數據庫自增主鍵，一個字亂。

在集群高並發情況下如何保證分布式全局唯一ID生成？

分布式ID生成規則硬性要求：

1、全局唯一：不能出現重復的ID號，既然是唯一標識，這是最基本的要求。

2、趨勢遞增：MySQL中InnoDB引擎使用的是聚集索引。多數RDBMS使用Btree的數據結構來存儲索引數據，在主鍵的選擇上盡量選擇有序的主鍵保證寫入性能。

3、單調遞增：保證下一個ID號一定大於上一個。

4、保證安全：ID號需要無規則性，不能讓別人根據ID號猜出我們的信息和業務數據量，增加惡意用戶扒取數據的難度。

5、含時間戳。

分布式ID生成可用性要求：

1、高可用：發布一個獲取分布式ID的請求，服務器就要保證99.999%的情況下給創建一個全局唯一的分布式ID。

2、低延遲：發布一個獲取分布式ID的請求，要快，急速。

3、高QPS：假如並發一口氣10萬個創建分布式ID請求同時殺過來，服務器要頂得住並且成功創建10萬個分布式ID。

生成主鍵方案有哪些：

1、UUID。

2、數據庫自增主鍵。

3、基於Redis生成全局ID策略。

4、雪花算法，Twitter的分布式自增ID算法snowflake。

5、百度UidGenerator算法(基於雪花算法實現自定義時間戳)。

6、美團Leaf算法(依賴於數據庫，ZK)。

1、UUID的優缺點：

優點：性能非常高，JDK自帶本地生成，無網絡消耗。

缺點：（1）只保證了唯一性，趨勢遞增。（2）無序，無法預測他的生成規則，不能生成遞增有序的數字。（3）mysql官方推薦主鍵越短越好，UUID包含32個16位進制的字母數字，每一個都很長。（4）B+樹索引的分裂。主鍵是包含索引的，mysql的索引是通過B+樹來實現的，每一次新的UUID數據插入，為了查詢優化，因為UUID是無序的，都會對索引底層的B+樹進行修改。插入無序，不但會導致一些中間節點產生分裂，也會白白創造很多不飽和的節點，大大降低了數據庫插入的性能。

2、數據庫自增主鍵的優缺點：

優點：簡單方便易用。

缺點：（1）要設置增長步長，系統水平擴展比較困難。（2）每次獲取ID都得讀寫一次數據庫，數據庫壓力大，非常影響性能，不符合分布式ID里低延遲和高QPS的規則。

3、基於Redis生成全局ID策略優缺點：

優點：滿足分布式ID生成要求，並且已有成功落地案例。

缺點：（1）要設置增長步長，同時key一定要設置有效期。（2）為了一個分布式ID，要搞一個Redis集群，維護成本大。

4、雪花算法，Twitter的分布式自增ID算snowflake優缺點：

優點：（1）經測試snowflake每秒能生成26萬個自增可排序的ID。（2）snowflake生成的ID結果是一個64bit大小的整數，為一個Long型（轉換成字符串后長度最多19）。（3）分布式系統內不會產生ID碰撞（datacenter和workerId作區分）並且效率高。（4）不依賴數據庫等第三方系統，以服務的方式部署，穩定性更高，生成ID的性能也非常高，可以根據自身業務分配bit位，非常靈活。

缺點：依賴機器時鍾，如果機器時鍾回撥，會導致id重復。由於是部署到分布式環境，每台機器上的時鍾不可能完全同步，有時候出現不是全局遞增的情況。（一般分布式ID只要求趨勢遞增，並不會嚴格要求遞增，90%的需求只要求趨勢遞增，可以忽略這個缺點，或者按實際情況進行改進，如下代碼demo）

雪花算法的幾個核心組成：

主要分為 5 個部分：

是 1 個 bit：0，這個是無意義的。
是 41 個 bit：表示的是時間戳。
是 10 個 bit：表示的是機房 id，0000000000，因為我傳進去的就是0。
是 12 個 bit：表示的序號，就是某個機房某台機器上這一毫秒內同時生成的 id 的序號，0000 0000 0000。

1 bit，是無意義的：

　　因為二進制里第一個 bit 為如果是 1，那么都是負數，但是我們生成的 id 都是正數，所以第一個 bit 統一都是 0。

41 bit：表示的是時間戳，單位是毫秒。

　　41 bit 可以表示的數字多達 2^41 - 1，也就是可以標識 2 ^ 41 - 1 個毫秒值，換算成年就是表示 69 年的時間，從1970年到2039年9月7日。

10 bit：記錄工作機器 id，代表的是這個服務最多可以部署在 2^10 台機器上，也就是 1024 台機器。

　　但是 10 bit 里 5 個 bit 代表機房 id，5 個 bit 代表機器 id。意思就是最多代表 2 ^ 5 個機房（32 個機房），每個機房里可以代表 2 ^ 5 個機器（32 台機器），這里可以隨意拆分，比如拿出4位標識業務號，其他6位作為機器號。可以隨意組合。

12 bit：這個是用來記錄同一個毫秒內產生的不同 id。

　　12 bit 可以代表的最大正整數是 2 ^ 12 - 1 = 4096，也就是說可以用這個 12 bit 代表的數字來區分同一個毫秒內的 4096 個不同的 id。也就是同一毫秒內同一台機器所生成的最大ID數量為4096

　　簡單來說，你的某個服務假設要生成一個全局唯一 id，那么就可以發送一個請求給部署了 SnowFlake 算法的系統，由這個 SnowFlake 算法系統來生成唯一 id。這個 SnowFlake 算法系統首先肯定是知道自己所在的機器號，（這里姑且講10bit全部作為工作機器ID）接着 SnowFlake 算法系統接收到這個請求之后，首先就會用二進制位運算的方式生成一個 64 bit 的 long 型 id，64 個 bit 中的第一個 bit 是無意義的。接着用當前時間戳（單位到毫秒）占用41 個 bit，然后接着 10 個 bit 設置機器 id。最后再判斷一下，當前這台機房的這台機器上這一毫秒內，這是第幾個請求，給這次生成 id 的請求累加一個序號，作為最后的 12 個 bit。

雪花算法源碼demo：

package com.example.demo;

import java.net.Inet4Address;
import java.net.UnknownHostException;
import java.util.Random;

/**
 * @Author: yzp
 * @Date: 2020-7-27 15:32
 * @description
 */
public class SnowflakeIdWorker {

    /** 時間部分所占長度 */
    private static final int TIME_LEN = 41;
    /** 數據中心id所占長度 */
    private static final int DATA_LEN = 5;
    /** 機器id所占長度 */
    private static final int WORK_LEN = 5;
    /** 毫秒內存序列所占長度 */
    private static final int SEQ_LEN = 12;

    /** 定義起始時間 2020-07-27*/
    private static final long START_TIME = 1595835560497L;
    /** 上次生成ID的時間戳 */
    private static long LAST_TIME_STAMP = -1L;
    /** 時間部分向左移動的位數 22 */
    private static final int TIME_LEFT_BIT = 64 - 1 - TIME_LEN;

    /** 自動獲取數據中心id（可以手動定義0-31之間的數） */
    private static final long DATA_ID = getDataId();
    /** 自動機器id（可以手動定義0-31之間的數） */
    private static final long WORK_ID = getWorkId();
    /** 數據中心id最大值 31 */
    private static final int DATA_MAX_NUM = ~(-1 << DATA_LEN);
    /** 機器id最大值 31 */
    private static final int WORK_MAX_NUM = ~(-1 << WORK_LEN);
    /** 隨機獲取數據中心id的參數 32 */
    private static final int DATA_RANDOM = DATA_MAX_NUM + 1;
    /** 隨機獲取機器id的參數 32 */
    private static final int WORK_RANDOM = WORK_MAX_NUM + 1;
    /** 數據中心id左移位數 17 */
    private static final int DATA_LEFT_BIT = TIME_LEFT_BIT - DATA_LEN;
    /** 機器id左移位數 12 */
    private static final int WORK_LEFT_BIT = DATA_LEFT_BIT - WORK_LEN;

    /** 上一次毫秒內存序列值 */
    private static long LAST_SEQ = 0L;
    /** 毫秒內存列的最大值 4095 */
    private static final long SEQ_MAX_NUM = ~(-1 << SEQ_LEN);

    /**
     * 獲取字符串S的字節數組，然后將數組的元素相加，對（max+1）取余
     * @param s 本地機器的hostName/hostAddress
     * @param max 機房/機器的id最大值
     * @return
     */
    private static int getHostId(String s, int max) {
        byte[] bytes = s.getBytes();
        int sums = 0;
        for (int b : bytes) {
            sums += b;
        }
        return sums % (max + 1);
    }

    /**
     * 根據 host address 取余， 發送異常就返回 0-31 之間的隨機數
     * @return 機器ID
     */
    private static int getWorkId() {
        try {
            return getHostId(Inet4Address.getLocalHost().getHostAddress(), WORK_MAX_NUM);
        } catch (UnknownHostException e) {
            return new Random().nextInt(WORK_RANDOM);
        }
    }

    /**
     * 根據 host name 取余， 發送異常就返回 0-31 之間的隨機數
     * @return 機房ID（數據中心ID）
     */
    private static int getDataId() {
        try{
            return getHostId(Inet4Address.getLocalHost().getHostName(), DATA_MAX_NUM);
        }catch(Exception e){
            return new Random().nextInt(DATA_RANDOM);
        }
    }

    /**
     * 獲取下一不同毫秒的時間戳
     * @param lastMillis
     * @return 下一毫秒的時間戳
     */
    private static long nextMillis(long lastMillis) {
        long now = System.currentTimeMillis();
        while (now <= lastMillis) {
            now = System.currentTimeMillis();
        }
        return now;
    }

    /**
     * 核心算法，需要加鎖保證並發安全
     * @return 返回唯一ID
     */
    public synchronized static long getUUID() {
        long now = System.currentTimeMillis();

        // 如果當前時間小於上一次ID生成的時間戳，說明系統時鍾回退過，此時因拋出異常
        if (now < LAST_TIME_STAMP) {
            throw new RuntimeException(String.format("系統時間錯誤！ %d 毫秒內拒絕生成雪花ID", START_TIME));
        }

        if (now == LAST_TIME_STAMP) {
            LAST_SEQ = (LAST_SEQ + 1) & SEQ_MAX_NUM;
            if (LAST_SEQ == 0) {
                now = nextMillis(LAST_TIME_STAMP);
            }
        } else {
            LAST_SEQ = 0;
        }

        // 上次生成ID的時間戳
        LAST_TIME_STAMP = now;

        return ((now - START_TIME) << TIME_LEFT_BIT | (DATA_ID << DATA_LEFT_BIT) | (WORK_ID << WORK_LEFT_BIT) | LAST_SEQ);
    }

    /**
     * 主函數測試
     * @param args
     */
    public static void main(String[] args) {
        long start = System.currentTimeMillis();
        int num = 300000;
        for (int i = 0; i < num; i++) {
            System.out.println(getUUID());
        }
        long end = System.currentTimeMillis();

        System.out.println("共生成 " + num + " 個ID，用時 " + (end - start) + " 毫秒");
    }
}

為什么推薦使用數字做主鍵，不推薦用uuid作為主鍵。

數字做主鍵int bigint以字節存儲分別是4byte和8byte

uuid在mysql4.0以前以字節存儲，4.0以后以字符存儲， varchar(32) 字符集是utf-8 中文name字段長度小於255是32*3+1占位符 255以上是32*3+2 英文32+1 32+2

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 雪花算法雪花算法雪花算法《算法 - 雪花算法》【Mybatis工具（五）】雪花算法雪花算法(snowflake) 雪花算法基本結構雪花算法原理 php雪花算法實現雪花算法的使用和對算法的理解