分庫分表的面試題3


 

1、面試題

 

如何設計可以動態擴容縮容的分庫分表方案?

 

2、面試官心里分析

 

1)選擇一個數據庫中間件,調研、學習、測試

2)設計你的分庫分表的一個方案,你要分成多少個庫,每個庫分成多少個表,3個庫每個庫4個表

3)基於選擇好的數據庫中間件,以及在測試環境建立好的分庫分表的環境,然后測試一下能否正常進行分庫分表的讀寫

4)完成單庫單表到分庫分表的遷移,雙寫方案

5)線上系統開始基於分庫分表對外提供服務

6)擴容了,擴容成6個庫,每個庫需要12個表,你怎么來增加更多庫和表呢?

 

這個是你必須面對的一個事兒,就是你已經弄好分庫分表方案了,然后一堆庫和表都建好了,基於分庫分表中間件的代碼開發啥的都好了,測試都ok了,數據能均勻分布到各個庫和各個表里去,而且接着你還通過雙寫的方案咔嚓一下上了系統,已經直接基於分庫分表方案在搞了。

 

那么現在問題來了,你現在這些庫和表又支撐不住了,要繼續擴容咋辦?這個可能就是說你的每個庫的容量又快滿了,或者是你的表數據量又太大了,也可能是你每個庫的寫並發太高了,你得繼續擴容。

 

這都是玩兒分庫分表線上必須經歷的事兒

 

3、面試題剖析

 

1)停機擴容

 

這個方案就跟停機遷移一樣,步驟幾乎一致,唯一的一點就是那個導數的工具,是把現有庫表的數據抽出來慢慢倒入到新的庫和表里去。但是最好別這么玩兒,有點不太靠譜,因為既然分庫分表就說明數據量實在是太大了,可能多達幾億條,甚至幾十億,你這么玩兒,可能會出問題。

 

從單庫單表遷移到分庫分表的時候,數據量並不是很大,單表最大也就兩三千萬

 

寫個工具,多弄幾台機器並行跑,1小時數據就導完了

 

3個庫+12個表,跑了一段時間了,數據量都1~2億了。光是導2億數據,都要導個幾個小時,6點,剛剛導完數據,還要搞后續的修改配置,重啟系統,測試驗證,10點才可以搞完

 

2)優化后的方案

 

一開始上來就是32個庫,每個庫32個表,1024張表

 

我可以告訴各位同學說,這個分法,第一,基本上國內的互聯網肯定都是夠用了,第二,無論是並發支撐還是數據量支撐都沒問題

 

每個庫正常承載的寫入並發量是1000,那么32個庫就可以承載32 * 1000 = 32000的寫並發,如果每個庫承載1500的寫並發,32 * 1500 = 48000的寫並發,接近5/s的寫入並發,前面再加一個MQ,削峰,每秒寫入MQ 8萬條數據,每秒消費5萬條數據。

 

有些除非是國內排名非常靠前的這些公司,他們的最核心的系統的數據庫,可能會出現幾百台數據庫的這么一個規模,128個庫,256個庫,512個庫

 

1024張表,假設每個表放500萬數據,在MySQL里可以放50億條數據

 

每秒的5萬寫並發,總共50億條數據,對於國內大部分的互聯網公司來說,其實一般來說都夠了

 

談分庫分表的擴容,第一次分庫分表,就一次性給他分個夠,32個庫,1024張表,可能對大部分的中小型互聯網公司來說,已經可以支撐好幾年了

 

一個實踐是利用32 * 32來分庫分表,即分為32個庫,每個庫里一個表分為32張表。一共就是1024張表。根據某個id先根據32取模路由到庫,再根據32取模路由到庫里的表。

 

剛開始的時候,這個庫可能就是邏輯庫,建在一個數據庫上的,就是一個mysql服務器可能建了n個庫,比如16個庫。后面如果要拆分,就是不斷在庫和mysql服務器之間做遷移就可以了。然后系統配合改一下配置即可。

 

比如說最多可以擴展到32個數據庫服務器,每個數據庫服務器是一個庫。如果還是不夠?最多可以擴展到1024個數據庫服務器,每個數據庫服務器上面一個庫一個表。因為最多是1024個表么。

 

這么搞,是不用自己寫代碼做數據遷移的,都交給dba來搞好了,但是dba確實是需要做一些庫表遷移的工作,但是總比你自己寫代碼,抽數據導數據來的效率高得多了。

 

哪怕是要減少庫的數量,也很簡單,其實說白了就是按倍數縮容就可以了,然后修改一下路由規則。

 

2 ^ n取模

 

orderId 32 =

orderId / 32 32 =

 

259 3 8

1189 5 5

352 0 11

4593 17 15

 

1、設定好幾台數據庫服務器,每台服務器上幾個庫,每個庫多少個表,推薦是32* 32表,對於大部分公司來說,可能幾年都夠了

 

2、路由的規則,orderId 32 = 庫,orderId / 32 32 =

 

3、擴容的時候,申請增加更多的數據庫服務器,裝好mysql,倍數擴容,4台服務器,擴到8台服務器,16台服務器

 

4、由dba負責將原先數據庫服務器的庫,遷移到新的數據庫服務器上去,很多工具,庫遷移,比較便捷

 

5、我們這邊就是修改一下配置,調整遷移的庫所在數據庫服務器的地址

 

6、重新發布系統,上線,原先的路由規則變都不用變,直接可以基於2倍的數據庫服務器的資源,繼續進行線上系統的提供服務

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM