ES查看segment大小

本文轉載自查看原文 2017-02-15 14:19 5101 搜索引擎

摘自：http://www.aboutyun.com/thread-17078-1-1.html

Segment Memory

Segment不是file嗎？segment memory又是什么？前面提到過，一個segment是一個完備的lucene倒排索引，而倒排索引是通過詞典 (Term Dictionary)到文檔列表(Postings List)的映射關系，快速做查詢的。由於詞典的size會很大，全部裝載到heap里不現實，因此Lucene為詞典做了一層前綴索引(Term Index)，這個索引在Lucene4.0以后采用的數據結構是FST (Finite State Transducer)。這種數據結構占用空間很小，Lucene打開索引的時候將其全量裝載到內存中，加快磁盤上詞典查詢速度的同時減少隨機磁盤訪問次數。

下面是詞典索引和詞典主存儲之間的一個對應關系圖:

<ignore_js_op>

說了這么多，要傳達的一個意思就是，ES的data node存儲數據並非只是耗費磁盤空間的，為了加速數據的訪問，每個segment都有會一些索引數據駐留在heap里。因此segment越多，瓜分掉的heap也越多，並且這部分heap是無法被GC掉的！理解這點對於監控和管理集群容量很重要，當一個node的segment memory占用過多的時候，就需要考慮刪除、歸檔數據，或者擴容了。

怎么知道segment memory占用情況呢?  CAT API可以給出答案。

1.  查看一個索引所有segment的memory占用情況：
<ignore_js_op>
2.  查看一個node上所有segment占用的memory總和:
<ignore_js_op>

那么有哪些途徑減少data node上的segment memory占用呢？總結起來有三種方法：

刪除不用的索引。
關閉索引（文件仍然存在於磁盤，只是釋放掉內存）。需要的時候可以重新打開。
定期對不再更新的索引做optimize (ES2.0以后更改為force merge api)。這Optimze的實質是對segment file強制做合並，可以節省大量的segment memory。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 統計Oracle一個表空間中各個segment占用的空間大小分區默認segment大小變化(64k—>8M) es 查看集群狀態 es查看和刪除索引 ES mapping的寫入與查看 Python：查看矩陣大小，查看列表大小查看ES版本 es lucene寫入流程，segment產生機制源碼分析查看 linux 分區大小 mysql查看數據大小