mysql數據遷徙詳解


數據遷徙是每個后端都會遇到的工作之一,本文介紹了一些常見的數據遷徙方法與工具

mysqldump:數據結構不變的數據遷徙

  1. 導出數據

    mysqldump -u root -p DATABASE_NAME table_name > dump.sql
    
  2. 恢復數據

    mysql -u root -p DATABESE_NAME < dump.sql
    

    或者連接mysql客戶端

    mysql> source dump.sql
    

使用pymysql連接數據庫

  1. 可以直接用用戶名密碼連接的數據庫

    class GeneralConnector:
        def __init__(self, config, return_dic=False):
            self.return_dic = return_dic
            self.config = config
    
        def __enter__(self):
            self.conn = pymysql.connect(**self.config, port=3306)
            if self.return_dic:
                # 一行數據會變成一個字典
                self.cursor = self.conn.cursor(pymysql.cursors.DictCursor)
            else:
                self.cursor = self.conn.cursor()
            return self.cursor
    
        def __exit__(self, *args):
            self.cursor.close()
            self.conn.commit()
            self.conn.close()
    

    使用:

    # local_db = {
    #     'user': 'root',
    #     'passwd': '',
    #     'host': '127.0.0.1',
    #     'db': 'local_db'
    #     }
    with GeneralConnector(const.local_db, return_dic=True) as cursor:
        cursor.execute('SELECT `col1`, `col2` FROM test;')
        return cursor.fetchall()
    
  2. 連接處於需要SSH連接的服務器的數據庫

    class SSHConnector:
        def __init__(self, server, config, return_dic=False):
            self.return_dic=return_dic
            self.server = server
            self.config = config
    
        def __enter__(self):
            self.conn = pymysql.connect(**self.config, port=self.server.local_bind_port)
            if self.return_dic:
                # 一行數據會變成一個字典
                self.cursor = self.conn.cursor(pymysql.cursors.DictCursor)
            else:
                self.cursor = self.conn.cursor()
            return self.cursor
    
        def __exit__(self, *args):
            self.cursor.close()
            self.conn.commit()
            self.conn.close()
    

    使用:

    # SERVER = SSHTunnelForwarder(
    #         (remote_host, ssh_port),
    #         ssh_username=USERNAME,
    #         ssh_pkey=SSH_KEY,
    #         ssh_private_key_password=SSH_KEY_PASSWD,
    #         remote_bind_address=('127.0.0.1', 3306) # mysql服務位置
    #     )
    # server_db = {
    #     'user': 'root',
    #     'passwd': '',
    #     'host': '127.0.0.1',
    #     'db': 'server_db'
    #     }
    # 創建一個隧道將服務端的mysql綁定到本地3306端口
    with const.SERVER as server:
        with SSHConnector(server, const.server_db) as cursor:
            cursor.execute('show tables;')
            data = cursor.fetchall()
            print(data)
    
    

cursor的各種操作

  1. cursor.execute(sql_statement)

    執行一條sql語句

  2. cursor.fetchall()

    獲取cursor的所有結果,常跟在select語句后使用

  3. cursor.fetchone()

    獲取cursor的第一條結果

  4. cursor.lastrowid

    最后一條數據的id

  5. cursor.executemany(insert_statement, data_list)

    批量插入一批數據,如

    with const.SERVER as server:
        with connector.Connector(server, const.db_1) as cursor:
            cursor.execute('select * from preference')
            preferences = cursor.fetchall()
    
        with connector.Connector(server, const.db_2) as cursor:
            cursor.executemany('insert into preference (`id`,`theme`,`user_id`) values (%s,%s,%s)',preferences)
    

從cursor獲取list類型的結果

cursor.execute('SELECT `name` FROM user;')

直接使用fetchall(),只能得到tuple包裹的數據

cursor.fetchall()
# (('Jack',), ('Ben'))

現在希望得到一個list結果集,做到像Django中flat=True那樣的效果

有兩種方法

  1. 列表解析式(list comprehension)

    name_list = [x[0] for x in cursor.fetchall()]
    

    這個方法的缺點在於會先使用fetchall()將結果集讀到內存,再做列表轉換,並不高效。

  2. itertools工具

    name_list = list(itertools.chain.from_iterable(cursor))
    

    推薦使用這個方式,第一它不會將所有結果fetch到內存中,第二使用itertools生成列表比列表解析式要快

如何在數據遷徙中使用Django的model

  1. 需要拷貝Django的settings文件,刪掉不需要的配置,並設置好遷徙目標數據庫

  2. 需要拷貝用到此model的文件

  3. 需要在settings.INSTALLED_APPS中引入models.py文件所在的目錄

  4. 在遷徙腳本頭部啟動Django

    import os
    import django
    import sys
    sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
    os.environ.setdefault("DJANGO_SETTINGS_MODULE", "translate.settings")
    django.setup()
    

通過SSH隧道的本地轉發實現Django連接遠程數據庫

  1. 創建一個ssh隧道,將遠程數據庫映射到本地端口

    ssh -L local_port:localhost:<remote mysql port> <username>@<remote host>
    

    ssh連接進行時,可以通過訪問本地端口來訪問遠程數據庫

  2. 在Django的settings中配置數據庫

    DATABASES = {
        'default': {
            'ENGINE': 'django.db.backends.mysql',
            'NAME': db_name,
            'USER': remote_mysql_user, # 遠程數據庫賬號密碼
            'PASSWORD': remote_mysql_password,
            'HOST': "localhost",
            'PORT': local_port, # 遠程數據庫映射到本地的端口
            'OPTIONS': {'init_command': 'SET default_storage_engine=INNODB;'}
            }
    }
    

至此,在使用Django的model時,將通過ssh隧道訪問遠程數據庫

注意事項

  1. 事先了解遷徙數據量,並且取5%~10%的數據測試遷徙速度
  2. 由測試數據預估總遷徙用時,如果總遷徙用時大於一小時,一定要把遷徙腳本放到服務器運行,這樣遷徙過程不易中斷,且服務器性能遠比個人電腦更優
  3. 盡量使用批量插入減少寫數據庫的次數,使用cursor.executemany或者Django的bulk_create
  4. 遷徙過程要寫好log,這樣能夠知道數據遷徙到了哪一步,如意外終端也能找到斷點繼續運行
  5. 創建時間字段加上auto_add_now會自動記錄數據的創建時間,在插入數據的時候對這個字段賦值無效


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM