Elasticsearch學習筆記


在介紹Elasticsearch的用法之前先講講為什么要用它吧。首先學習搜索引擎,肯定不可避免的都聽過lucene,solr和Elasticsearch都是基於它的。spinx文章很多,但是數據庫的入侵性太強(插件模式)。Elasticsearch是當下最流行的分布式搜索引擎之一。solr也稍微玩過,文章也多。同時也希望能通過Elasticsearch進一步學習完善自己對於分布式的學習。更深入的同學可以考慮開始學習ELK(Elasticsearch, Logstash, Kibana)。

推薦:《Elasticsearch-definitive-guide》

看過這本書之后入門就成了很簡單的事,書很淺顯易懂,沒什么特別難的地方。

其中有一個例子寫的非常好,可以作為全局引導大家學習,摘抄一部分過來:

我們首先要做的是存儲員工數據,每個文檔代表一個員工。在Elasticsearch中存儲數據的行為就叫做索引(indexing),不過在索引之前,我們需要明確數據應該存儲在哪里。

在Elasticsearch中,文檔歸屬於一種類型(type),而這些類型存在於索引(index)中,我們可以畫一些簡單的對比圖來類比傳統關系型數據庫:

Relational DB -> Databases -> Tables -> Rows -> Columns
Elasticsearch -> Indices   -> Types  -> Documents -> Fields

Elasticsearch集群可以包含多個索引(indices)(數據庫),每一個索引可以包含多個類型(types)(表),每一個類型包含多個文檔(documents)(行),然后每個文檔包含多個字段(Fields)(列)。

「索引」含義的區分

你可能已經注意到索引(index)這個詞在Elasticsearch中有着不同的含義,所以有必要在此做一下區分:

  • 索引(名詞) 如上文所述,一個索引(index)就像是傳統關系數據庫中的數據庫,它是相關文檔存儲的地方,index的復數是indices indexes
  • 索引(動詞) 「索引一個文檔」表示把一個文檔存儲到索引(名詞)里,以便它可以被檢索或者查詢。這很像SQL中的INSERT關鍵字,差別是,如果文檔已經存在,新的文檔將覆蓋舊的文檔。
  • 倒排索引 傳統數據庫為特定列增加一個索引,例如B-Tree索引來加速檢索。Elasticsearch和Lucene使用一種叫做倒排索引(inverted index)的數據結構來達到相同目的。

默認情況下,文檔中的所有字段都會被索引(擁有一個倒排索引),只有這樣他們才是可被搜索的。

 

 

理解上面的索引介紹后,接下來就是很入門的開工工作了。安裝Elasticsearch:

  1. 安裝JDK(下載地址
  2. 安裝ElasticSearch( 下載地址
    1. 解壓,運行\bin\elasticsearch.bat.
    2. 瀏覽器輸入http://localhost:9200/,可以看到如圖:

    3. 安裝成功。
  3. 安裝ElasticSearch – header plugin  https://github.com/mobz/elasticsearch-head

    這個插件主要是用來管理索引數據和狀態,文檔中有詳細說明,安裝步驟也很簡單,用命令行轉bin目錄下運行插件安裝

    完成后,打開http://localhost:9200/_plugin/head/就可以看到下面這個管理界面

     

  這樣子安裝算告一段落了,可以開始寫點代碼做點實事了,我用的是NEST這個Client工具,大家可以根據自己的語言選擇工具。

  一般而言,我們用到搜索的功能都是全文索引,否則也沒必要用搜索引擎了:

 

        static void Main(string[] args)
        {
            //var person = new Person
            //{
            //    Id = System.Guid.NewGuid().ToString("N"),
            //    Firstname = "中文測試一下 天才",
            //    Lastname = "哈哈 蠢的不行?"
            //};
            //CraateIndex(person);
            var items = GetPagingForSearch<Person>("天才", "firstname", SortOrder.Descending, 0, 10);
            foreach (var item in items)
            {
                Console.WriteLine("item:" + Newtonsoft.Json.JsonConvert.SerializeObject(item));
            }

            Console.ReadLine();
        }

        public static IList<T> GetPagingForSearch<T>(string key, string orderbyKey, SortOrder orderType, int index, int size) where T : class
        {
            var client = GetClient();
            //query_string只是其中一種最常用查詢,Operator枚舉的Or和And可以根據全文檢索的業務要求使用,以下查詢就是為了最簡單的分頁全文檢索接口
            var searchResults = client.Search<T>(s => s
                .Index("sample-index")
                .Type("sample-type")
                .Query(q => q.QueryString(qs => qs.Query(key).DefaultOperator(Operator.And)))
                .Sort(sort => sort.OnField(orderbyKey).Order(orderType))
                .From(index * size)       //分頁頁碼
                .Size(size)      //分頁尺寸
            );

            return searchResults.Documents.ToList();
        }

        public static void CraateIndex<T>(T model) where T : class
        {
            var client = GetClient();
            var index = client.Index(model, i => i
                .Index("sample-index")
                .Type("sample-type")
                .Id(System.Guid.NewGuid().ToString("N"))
                .Refresh()
                .Ttl("1m")
            );
        }

        public static ElasticClient GetClient()
        {
            var node = new Uri("http://localhost:9200");

            var settings = new ConnectionSettings(
                node,
                defaultIndex: "my-application"
            );

            return new ElasticClient(settings);
        }  

 

 

 運行結果:

 

以上只用到了QueryString,當然它的查詢方法遠不只這些,具體的查詢方法我這里就不班門弄斧了。推薦去看文檔。附上NEST的文檔:http://nest.azurewebsites.net/nest/quick-start.html

  Elasticsearch致力於隱藏分布式系統的復雜性。以下這些操作都是在底層自動完成的:

  • 將你的文檔分區到不同的容器或者分片(shards)中,它們可以存在於一個或多個節點中。
  • 將分片均勻的分配到各個節點,對索引和搜索做負載均衡。
  • 冗余每一個分片,防止硬件故障造成的數據丟失。
  • 將集群中任意一個節點上的請求路由到相應數據所在的節點。
  • 無論是增加節點,還是移除節點,分片都可以做到無縫的擴展和遷移。

  你可以看到以下默認的分片情況:


很明顯以上分片都在同一個node上,而分片又組成了集群。其中node本身是有可能存在主分片和復制分片,而節點與節點之間又有可能通過分片聯系。
還有一些很關鍵的集群模塊,集群健康監控,Elasticsearch健康有三種狀態:greenyellowred。限制query執行時占用的JVM Heap sized等等。
對於分布式這塊這里就不能再往下展開了,具體可學習文中提到的那本書,里面有詳細介紹。而性能方面,由於現在公司的業務根本達不到這個數量級,暫時無法給出較好的對比。千百萬級別,不管solr,還是ES都是OK的。上億恐怕要斟酌和優化了。



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM