應用背景
- 數據量過大,索引分片數量不足,導致數據入庫較慢的情況,需要擴大分片的數量。
- 數據的mapping需要修改,但是大量的數據已經導入到索引中了,重新導入數據到新的索引太耗時;但是在ES中,一個字段的mapping在定義並且導入數據之后是不能再修改的。
上述情況下需要重建索引進行數據遷移,ES提供了_reindex這個API來實現這個功能,它相對於重新導入數據速度更快,大概是bulk導入數據的5-10倍。
數據遷移步驟
1、創建新的索引
在創建索引的時候需要把表結構創建好。
2、復制數據
1)直接復制索引到新的索引名稱
POST localhost:9200/_reindex { "source": { "index": "indexName" }, "dest": { "index": "newIndexName" } }
2)查詢復制索引到新的索引名稱
POST localhost:9200/_reindex { "source": { "index": "indexName", "type": "typeName", "query": { "term": { "name": "shao" } } }, "dest": { "index": "newIndexName" } }
3)利用命令
curl _XPOST 'ES數據庫請求地址:9200/_reindex' -d{"source":{"index":"old_index"},"dest":{"index":"new_index"}}
但如果新的index中有數據,並且可能發生沖突,那么可以設置version_type"version_type": "internal"或者不設置,則Elasticsearch強制性的將文檔轉儲到目標中,覆蓋具有相同類型和ID的任何內容:
POST _reindex { "source": { "index": "old_index" }, "dest": { "index": "new_index", "version_type": "internal" } }
數據遷移效率
常規情況下,如果只是進行少量數據遷移,利用普通的reindex就可以達到要求。但是當需要遷移的數據量過大時,會發現reindex的速度會變得很慢。比如數據量幾十個G的場景下,elasticsearch reindex速度太慢,從舊索引導數據到新索引最佳方案是什么?
原因分析:
reindex的核心做跨索引、跨集群的數據遷移。慢的原因及優化思路包括:
1)批量大小值可能太小。需要結合堆內存、線程池調整大小;
2)reindex的底層是scroll實現,借助scroll並行優化方式,提升效率;
3)跨索引、跨集群的核心是寫入數據,考慮寫入優化角度提升效率。
可行方案:
1)提升批量寫入大小值
默認情況下,_reindex使用1000進行批量操作,可以在source中調整batch_size。
POST _reindex { "source": { "index": "source", "size": 5000 }, "dest": { "index": "dest", "routing": "=cat" } }
批量大小設置的依據:
1、使用批量索引請求以獲得最佳性能
批量大小取決於數據、分析和集群配置,一般每批處理5-15 MB物理大小數據。
2、逐步遞增文檔容量大小的方式調優
從大約5-15 MB的大容量開始,慢慢增加,直到看不到性能的提升。然后開始增加批量寫入的並發性。使用kibana、cerebro或iostat、top和ps等工具監視節點,查看資源何時開始出現瓶頸。如果開始接收EsRejectedExecutionException,說明地區==當前集群已經達到性能極限。
借助scroll的sliced提升寫入效率
Reindex支持Sliced Scroll並行化重建索引過程。 這種並行化可以提高效率,並提供一種方便的方法將請求分解為更小的部分。
sliced原理(from medcl)
Scroll接口現在可以並發進行數據遍歷,每個Scroll請求,可以分成多個Slice請求,可以理解為切片,各Slice獨立並行,利用Scroll重建或者遍歷要快很多倍。slicing的設定分為兩種方式:手動設置分片、自動設置分片。手動設置分片參見官網。自動設置分片如下:
POST _reindex?slices=5&refresh { "source": { "index": "twitter" }, "dest": { "index": "new_twitter" } }
slices大小設置注意事項:
1)slices大小設置可以手動指定,或者設置slices設置為auto,auto的含義是:針對單索引,slices大小=分片數;針對多索引,slices=分片的最小值。
2)當slices的數量等於索引中的分片數量時,查詢性能最高效。slices大小大於分片數,非但不會提升效率,反而會增加開銷。
3)如果這個slices數字很大(例如500),建議選擇一個較低的數字,因為過大的slices 會影響性能。
實踐證明,比默認設置reindex速度能提升10倍+。