關於MySQL的在線擴容

本文轉載自查看原文 2014-03-05 14:16 4221 好文摘錄

原文地址：http://bucketli.iteye.com/blog/1294032

主要簡單總結下，mysql在線擴容和縮容一般涉及到的內容，主要包括三個方面，1.在線也就意味着需要把增量的數據重新分布到新的拓撲結構中,我們一般稱做增量復制，2.原有的數據需要一條不漏的掃出來重新分布到新的拓撲結構中,這個一般叫做全量復制，3.全量做完，增量正在同步，把應用的數據路由拓撲切到新的路由拓撲上來，並且做到無數據丟失，這個我們叫做停寫切換。做好這三個方面的工作，能夠達到的效果就是應用在最后切換數據分布拓撲的時刻，只要停寫非常短的時間(秒級別)就能夠做到無數據丟失的擴容和縮容。

增量同步一般有2種方式，一種是應用端或者數據庫前端做trigger,記錄變更數據的特征值log(比如pk,sharding key)，然后異步復制到新的拓撲結構中。另外一種方式是通過分析mysql的binlog再進行不同數據拓撲的復制。兩者本質上來說應該是一樣的，后者可能更加簡便，並且對應用無侵入，前者雖然也能夠做到，實際實現或者推廣和操作上都有不少阻力，最起碼解析binlog方式是mysql一上去，更新的log已經天然存在與binlog中了。

增量同步的兩種方式如果要考慮到同步的可伸縮性(也就是多台機器可以同時消費相同的變更日志)，需要在原數據中添加數據的版本信息防止更新亂序，或者通過唯一鍵進行復制機器的sharding,也就是不同進程(線程)同時消費相同的更新日志，必須讓同一條記錄的更新落在同一個線程里面，如果還需要保證復制的事務，那么實現會非常復雜，一般不會去支持多線程下復制的事務。

全量復制，也就是掃描需要復制的表的數據進行重新分布，主要存在的問題是復制速度和對數據庫的寫入壓力的矛盾，其實能夠做到整個拓撲連數據庫都全部換掉，來達到對正在使用數據庫的0影響，這個是一種可行的方案，另外是分時段調整復制線程數，一般單線程復制對於數據庫的影響不會很大，在凌晨再轉換成多線程方式達到提速的目標。

擴容或者縮容在最后階段如何切換，這個涉及到的問題主要是如何避免新更新進來以至於增量沒完沒了，方式有很多，最簡單的方法就是停掉應用，一般時間只有幾分鍾是可以接受的。另外一種是邏輯停寫，因為我們遷移的時候是有一個規則去重新散列數據，也就是如果新的規則和舊的規則兩者算出來的結果不一致，那么這個數據就是需要被遷移的，如果在停寫的時刻，向前端拋錯即可。邏輯停寫最大的好處就是避免PE的介入，並且配合動態的數據路由數據推送，可以完全避免重新發布達到擴容或者縮容，這個就是真正的在線擴容，停寫不可避免（等待延遲的增量同步完成），但是不影響讀。

數據擴容或者縮容，我們覺得不應該排入業務的開發日程中，而是由數據管理團隊對應用透明地進行這種操作，最后介入的人員只是DBA而已。但是不像一些nosql一樣按容量或者完全透明的split,數據庫的sharding還是按照應用的數據特性（pk,user_id,gmt_create等等不同字段，自選策略）進行sharding,應用知道他們的某條數據具體存在哪個機器哪張表上，這個無論對於開發還是測試或者DBA都是一件不錯的事情。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 在線擴容LV卷 LVM在線磁盤擴容 Linux在線擴容根分區 CentOS 磁盤在線擴容 zookeeper 在線擴容縮容阿里雲在線擴容磁盤 CentOS下KVM增加磁盤/磁盤擴容/在線擴容 qcow2 磁盤在線擴容方法 linux在線擴容分區（不丟失數據）在線擴容雲盤（Linux系統）