ES之數據遷移

本文轉載自查看原文 2021-12-05 11:37 3556 【數據庫】

應用背景

數據量過大，索引分片數量不足，導致數據入庫較慢的情況，需要擴大分片的數量。
數據的mapping需要修改，但是大量的數據已經導入到索引中了，重新導入數據到新的索引太耗時；但是在ES中，一個字段的mapping在定義並且導入數據之后是不能再修改的。

上述情況下需要重建索引進行數據遷移，ES提供了_reindex這個API來實現這個功能，它相對於重新導入數據速度更快，大概是bulk導入數據的5-10倍。

數據遷移步驟

1、創建新的索引

在創建索引的時候需要把表結構創建好。

2、復制數據

1）直接復制索引到新的索引名稱

POST localhost:9200/_reindex
{
  "source": {
    "index": "indexName"
  },
  "dest": {
    "index": "newIndexName"
  }
}

2）查詢復制索引到新的索引名稱

POST localhost:9200/_reindex
{
  "source": {
    "index": "indexName",
    "type": "typeName",
    "query": {
      "term": {
        "name": "shao"
      }
    }
  },
  "dest": {
    "index": "newIndexName"
  }
}

3）利用命令

curl _XPOST 'ES數據庫請求地址:9200/_reindex' -d{"source":{"index":"old_index"},"dest":{"index":"new_index"}}

但如果新的index中有數據，並且可能發生沖突，那么可以設置version_type"version_type": "internal"或者不設置，則Elasticsearch強制性的將文檔轉儲到目標中，覆蓋具有相同類型和ID的任何內容：

POST _reindex
{
  "source": {
    "index": "old_index"
  },
  "dest": {
    "index": "new_index",
    "version_type": "internal"
  }
}

數據遷移效率

常規情況下，如果只是進行少量數據遷移，利用普通的reindex就可以達到要求。但是當需要遷移的數據量過大時，會發現reindex的速度會變得很慢。比如數據量幾十個G的場景下，elasticsearch reindex速度太慢，從舊索引導數據到新索引最佳方案是什么？

原因分析：

reindex的核心做跨索引、跨集群的數據遷移。慢的原因及優化思路包括：

1）批量大小值可能太小。需要結合堆內存、線程池調整大小；

2）reindex的底層是scroll實現，借助scroll並行優化方式，提升效率；

3）跨索引、跨集群的核心是寫入數據，考慮寫入優化角度提升效率。

可行方案：

1）提升批量寫入大小值

默認情況下，_reindex使用1000進行批量操作，可以在source中調整batch_size。

POST _reindex
{
  "source": {
    "index": "source",
    "size": 5000
  },
  "dest": {
    "index": "dest",
    "routing": "=cat"
  }
}

批量大小設置的依據：

1、使用批量索引請求以獲得最佳性能

批量大小取決於數據、分析和集群配置，一般每批處理5-15 MB物理大小數據。

2、逐步遞增文檔容量大小的方式調優

從大約5-15 MB的大容量開始，慢慢增加，直到看不到性能的提升。然后開始增加批量寫入的並發性。使用kibana、cerebro或iostat、top和ps等工具監視節點，查看資源何時開始出現瓶頸。如果開始接收EsRejectedExecutionException，說明地區==當前集群已經達到性能極限。

借助scroll的sliced提升寫入效率

Reindex支持Sliced Scroll並行化重建索引過程。這種並行化可以提高效率，並提供一種方便的方法將請求分解為更小的部分。

sliced原理（from medcl）

Scroll接口現在可以並發進行數據遍歷，每個Scroll請求，可以分成多個Slice請求，可以理解為切片，各Slice獨立並行，利用Scroll重建或者遍歷要快很多倍。slicing的設定分為兩種方式：手動設置分片、自動設置分片。手動設置分片參見官網。自動設置分片如下：

POST _reindex?slices=5&refresh
{
  "source": {
    "index": "twitter"
  },
  "dest": {
    "index": "new_twitter"
  }
}

slices大小設置注意事項：

1）slices大小設置可以手動指定，或者設置slices設置為auto，auto的含義是：針對單索引，slices大小=分片數；針對多索引，slices=分片的最小值。

2）當slices的數量等於索引中的分片數量時，查詢性能最高效。slices大小大於分片數，非但不會提升效率，反而會增加開銷。

3）如果這個slices數字很大(例如500)，建議選擇一個較低的數字，因為過大的slices 會影響性能。

實踐證明，比默認設置reindex速度能提升10倍+。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 es數據遷移（原創） ES數據遷移之elasticdump ELK數據遷移,ES快照備份遷移 ES跨集群數據遷移多es 集群數據遷移方案 es 遷移數據, 重建索引 es遷移索引數據合並 ES：在線遷移集群索引，數據不丟失 logstash系列一使用logstash遷移ES數據 es--映射修改和數據遷移