高並發分布式環境中獲取全局唯一ID[分布式數據庫全局唯一主鍵生成]


需求說明

在過去單機系統中,生成唯一ID比較簡單,可以使用MySQL的自增主鍵或者Oracle中的sequence, 在現在的大型高並發分布式系統中,以上策略就會有問題了,因為不同的數據庫會部署到不同的機器上,一般都是多主實例,而且再加上高並發的話,就會有重復ID的情況了。至於為什么會有重復就不多說了,技術人員都懂的。

本文講述的案例不僅僅局限於數據庫中的ID主鍵生產,也可以適用於其他分布式環境中的唯一標示,比如全局唯一事務ID,日志追蹤時的唯一標示等。

先列出筆者最喜歡的一種全局唯一ID的生成方式,注意:沒有完美的方案,只有適合自己的方案,還請讀者根據具體的業務進行取舍,而且可以放到客戶端進行ID 的生成,沒有單點故障,性能也有一定保證,而且不需要獨立的服務器。

全數字全局唯一標識(來自於mongodb)

其實現在有很多種生成策略,也各有優缺點,使用場景不同。這里說的是一種全數字的全局唯一ID,為什么我比較喜歡呢,首先它是全數字,保存和計算都比較簡單(想一下MySQL數據庫中對數字和字符串的處理效率),而且從這個ID中可以得到一些額外的信息,不想一些UUID、sha等字符串對我們幾乎沒有太大幫助。好了下面就說一下具體實現過程。

算法來自於MongoDB

ObjectId使用12字節的存儲空間,每個字節存兩位16進制數字,是一個24位的字符串。其生成方式如下:

12位生成規則: 
[0,1,2,3] [4,5,6] [7,8] [9,10,11] 
時間戳 |機器碼 |PID |計數器

  1. 前四個字節時間戳是從標准紀元開始的時間戳,單位為秒,有如下特性:

    • 時間戳與后邊5個字節一塊,保證秒級別的唯一性;
    • 保證插入順序大致按時間排序;
    • 隱含了文檔創建時間;
    • 時間戳的實際值並不重要,不需要對服務器之間的時間進行同步(因為加上機器ID和進程ID已保證此值唯一,唯一性是ObjectId的最終訴求)。

上面牽扯到兩個分布式系統中的概念:分布式系統中全局時鍾同步很難,基本不可能實現,也沒必要;時序一致性(順序性)無法保證。這不屬於本文范疇,感興趣讀者請自行搜索。

  1. 機器ID是服務器主機標識,通常是機器主機名的hash散列值。
  2. 同一台機器上可以運行多個mongod實例,因此也需要加入進程標識符PID。
  3. 前9個字節保證了同一秒鍾不同機器不同進程產生的ObjectId的唯一性。后三個字節是一個自動增加的計數器(一個mongod進程需要一個全局的計數器),保證同一秒的ObjectId是唯一的。同一秒鍾最多允許每個進程擁有(256^3 = 16777216)個不同的ObjectId。

總結一下:時間戳保證秒級唯一,機器ID保證設計時考慮分布式,避免時鍾同步,PID保證同一台服務器運行多個mongod實例時的唯一性,最后的計數器保證同一秒內的唯一性(選用幾個字節既要考慮存儲的經濟性,也要考慮並發性能的上限)。

改為全數字

上面mongodb中保存的是16進制,如果不想用16進制的話,可以修改為10進制保存,只不過占用空間會大一些。

后面的計數器留幾位,具體就看你們的業務量了,設計的時候要預留出以后的業務增長量。單進程內的計數器可以使用atomicInteger。

UUID

  UUID生成的是length=32的16進制格式的字符串,如果回退為byte數組共16個byte元素,即UUID是一個128bit長的數字,
  一般用16進制表示。
  算法的核心思想是結合機器的網卡、當地時間、一個隨即數來生成UUID。
  從理論上講,如果一台機器每秒產生10000000個GUID,則可以保證(概率意義上)3240年不重復
  優點:
  (1)本地生成ID,不需要進行遠程調用,時延低
  (2)擴展性好,基本可以認為沒有性能上限
  缺點:
  (1)無法保證趨勢遞增
  (2)uuid過長,往往用字符串表示,作為主鍵建立索引查詢效率低,常見優化方案為“轉化為兩個uint64整數存儲”或者“折半存儲”(折半后不能保證唯一性)

注:以下這幾種需要獨立的服務器

來自Flicker的解決方案(依賴數據庫)

因為MySQL本身支持auto_increment操作,很自然地,我們會想到借助這個特性來實現這個功能。 
Flicker在解決全局ID生成方案里就采用了MySQL自增長ID的機制(auto_increment + replace into + MyISAM)。一個生成64位ID方案具體就是這樣的: 
先創建單獨的數據庫(eg:ticket),然后創建一個表:

CREATE TABLE Tickets64 ( id bigint(20) unsigned NOT NULL auto_increment, stub char(1) NOT NULL default '', PRIMARY KEY (id), UNIQUE KEY stub (stub) ) ENGINE=MyISAM
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  當我們插入記錄后,執行SELECT * from Tickets64,查詢結果就是這樣的:

  +-------------------+------+
  | id                | stub |
  +-------------------+------+
  | 72157623227190423 | a    |
  +-------------------+------+
  在我們的應用端需要做下面這兩個操作,在一個事務會話里提交:
REPLACEINTOTickets64 (stub)VALUES('a');
SELECTLAST_INSERT_ID();
  • 1
  • 2
  • 1
  • 2
  這樣我們就能拿到不斷增長且不重復的ID了。
  到上面為止,我們只是在單台數據庫上生成ID,從高可用角度考慮,接下來就要解決單點故障問題:Flicker啟用了兩台數據庫服務器來生成ID,通過區分auto_increment的起始值和步長來生成奇偶數的ID。
TicketServer1:
auto-increment-increment = 2
auto-increment-offset = 1

TicketServer2:
auto-increment-increment = 2
auto-increment-offset = 2
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  最后,在客戶端只需要通過輪詢方式取ID就可以了。

  優點:充分借助數據庫的自增ID機制,提供高可靠性,生成的ID有序。
  缺點:占用兩個獨立的MySQL實例,有些浪費資源,成本較高。在服務器變更的時候要修改步長,比較麻煩。

基於redis的分布式ID生成器

首先,要知道Redis的EVAL,EVALSHA命令: 
原理 
利用redis的lua腳本執行功能,在每個節點上通過lua腳本生成唯一ID。 
生成的ID是64位的:

    • 使用41 bit來存放時間,精確到毫秒,可以使用41年。
    • 使用12 bit來存放邏輯分片ID,最大分片ID是4095
    • 使用10 bit來存放自增長ID,意味着每個節點,每毫秒最多可以生成1024個ID 
      比如GTM時間 Fri Mar 13 10:00:00 CST 2015 ,它的距1970年的毫秒數是 1426212000000,假定分片ID是53,自增長序列是4,則生成的ID是:

      5981966696448054276 = 1426212000000 << 22 + 53 << 10 + 41 
      redis提供了TIME命令,可以取得redis服務器上的秒數和微秒數。因些lua腳本返回的是一個四元組。

      second, microSecond, partition, seq 
      客戶端要自己處理,生成最終ID。

      ((second * 1000 + microSecond / 1000) << (12 + 10)) + (shardId << 10) + seq;


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM