ElasticSearch 5.0.1 java API操作

本文轉載自查看原文 2016-11-26 13:26 21969 Elasticsearch/Lucene/ java/ Elasticsearch/ ES

今天來說下使用ES 5.0.1的API來進行編碼。

開始之前，簡單說下5.0.1跟之前的幾個變化。之前的ES自身是不支持delete-by-query的，也就是通過查詢來刪除，可以達到批量的效果，是因為刷新的原因，應該夠近實時的特性相關。一直是以一個插件的形式存在，到5.0.1時，倒騰了半天，還是官方文檔說，已經廢掉了這個插件，放到ES Core中來了。這是一個變化，另外，初始化ES client的方式也變化了，這個要吐槽一下，從1.7到2.X，初始化方式改了一遍，從2.X到5.X又變了，讓人有點受不了啊！

閑話不提，開始。

本篇談到初始化，增，刪，改。對於查詢，我們用單獨一節來說。

ES的初始化：

Settings esSettings = Settings.builder()

.put("cluster.name", clusterName) //設置ES實例的名稱

.put("client.transport.sniff", true) //自動嗅探整個集群的狀態，把集群中其他ES節點的ip添加到本地的客戶端列表中

.build();

client = new PreBuiltTransportClient(esSettings);//初始化client較老版本發生了變化，此方法有幾個重載方法，初始化插件等。

//此步驟添加IP，至少一個，其實一個就夠了，因為添加了自動嗅探配置

client.addTransportAddress(new InetSocketTransportAddress(InetAddress.getByName(ip), esPort));

對於ES Client，有兩種形式，一個是TransportClient，一個是NodeClient。兩個的區別為：

TransportClient作為一個外部訪問者，通過HTTP去請求ES的集群，對於集群而言，它是一個外部因素。

NodeClient顧名思義，是作為ES集群的一個節點，它是ES中的一環，其他的節點對它是感知的，不像TransportClient那樣，ES集群對它一無所知。NodeClient通信的性能會更好，但是因為是ES的一環，所以它出問題，也會給ES集群帶來問題。NodeClient可以設置不作為數據節點，在elasticsearch.yml中設置，這樣就不會在此節點上分配數據。

如果用ES的節點，大家仁者見仁智者見智，各按所需。

現在已經通過TransportClient連接到了集群。下一步就是創建索引，有一個常用的關系型數據庫與ES的映射關系：

關系型數據庫 -> 索引

關系型數據表 -> 類型

關系型數據項 -> 文檔

字段 -> 字段

說到索引，簡單說下分片(shard)。ES本身是分布式的，所以分片自然而然，它的分片並非將所有的數據都放在一起，以默認的5個主分片為例，ES會將數據均衡的存儲到5個分片上，也就是這5個分片的數據並集才是整個數據集，這5個分片會按照一定規則分配到不同的ES Node上。這樣的5個分片叫主分片。然后就是從分片，默認設置是一個主分片會有一個從分片，那么就有5個從分片，那么默認配置會產生10個分片（5主5從）就散布在所有的Node上。主分片的個數是索引新建的時候設置的，一經設置，不可改變，因為ES判斷一條文檔存放到哪個分片就是通過這個主分片數量來控制的。簡單來講，插入的文檔號與5取余（實際不是這樣實現的，但是也很簡單）。檢索結果的時候，也是通過這個來確認結果分布的，所以不能改。從分片的數量可以隨便改，因為塔是跟主分片關聯的。另外，Node節點也可以隨時加，而且ES還會在新節點加入之后，重新調整數據分片的分布。

新建索引：

client.admin().indices().prepareCreate(indexName).get();

或者

client.admin().indices().prepareCreate(indexName).setSettings(settings).get();

ES是區分大小寫的，索引所有數據在進到ES之前，最好都規格化。

setSettings挺有用，比如上面說的設置分片數就是通過這里設置的，參數可以是JSON，也有其他的重載；

這里說下在新建索引的時候配置默認的分詞器IK

{"analysis":{"analyzer":{"ik":{"tokenizer":"ik_smart"}}}}

這是我用JSON序列化出來的，紅底的ik是我為analyzer設置的名字，通過這個名字在索引和檢索的時候，來調用ik分詞器。當然，我們打算把IK設置為默認的分詞器，可以將ik改為default，這樣就不需要在索引和檢索的時候指定了，默認的分詞器為standardAnalyzer。

設置好之后，新建一個Index，可以用Kibana瞧瞧結果：

注意，Kibana有個坑，就是用它來分詞中文，會有亂碼，這個跟ES沒關系,用Kibana的結果

用FireFox的插件Request的結果，話說Request還是極好用的：

有遇到並知道為啥的給指點一下。

創建好了索引，接下來就是類型了，創建類型很簡單，直接插入一個文檔，如果文檔所屬的類型不存在，則會新建，如果存在，就直接插入。但是在插入文檔之前，我們可以對一些預料到的字段或者其他屬性進行一個預定義的設置，比如，我在插入文檔之前，想讓所有的id都是long類型，並且id是要存儲並且不需要分析的。（關於字段存儲和分析，下回再說）。可以用MappingRequest這個類幫我們達到目的。直接上代碼

XContentBuilder builder = XContentFactory.jsonBuilder()

.startObject()

.startObject(type)

.startObject("properties");

JSONObject object = mapping.getJSONObject(i);

builder.startObject(object.getString("fieldName"));

builder.field("type", object.getString("fieldType"));

builder.field("index", "not_analyzed");

builder.field("store", "yes");

builder.endObject();

builder.endObject().endObject().endObject();

PutMappingRequest mappingRequest = Requests.putMappingRequest(index).type(type).source(builder);

client.admin().indices().putMapping(mappingRequest).actionGet();

這樣就指定好了mapping。

那接下來我們添加文檔，添加文檔可以單條添加，也可以批量添加：

單條添加：

client.prepareIndex(indexName, type)

.setSource(jsonData)

.setId(jsonData.getString(KEY))//自己設置了id，也可以使用ES自帶的，但是看文檔說，ES的會因為刪除id發生變動。

.execute()

.actionGet();

批量添加：

BulkRequestBuilder bulkRequestBuilder = client.prepareBulk();

for (int i = 0; i < docData.size(); i++){

bulkRequestBuilder.add(client.prepareIndex(indexName, type).setId(docData.getJSONObject(i).getString("id")).setSource(docData.getJSONObject(i)));

}

BulkResponse bulkResponse = bulkRequestBuilder.execute().actionGet();

bulkRequestBuilder.request().requests().clear();

if (bulkResponse.hasFailures()){

//TODO:

}

刪除：

client.prepareDelete(indexName, type, docId).execute().actionGet();

更新

UpdateRequest updateRequest = new UpdateRequest();

updateRequest.index(indexName).type(type).id(jsonData.getString("id")).doc(jsonData);

client.update(updateRequest);

以上代碼都很簡單，但都有不少重載，可以先通過一個方法進去，然后研究各個重載是應對什么情況的。

通過上面的編碼，就可以在我們的程序中實現ES的初始化，添加文檔，刪除文檔，和更新文檔。最后，再說下delete-by-query。

ES提供接口，可以直接刪除整個索引

client.admin().indices().delete(new DeleteIndexRequest(indexName)).actionGet();

上面也提到了刪除一個文檔，但是如果刪除整個type呢？es是沒有提供整個東西的。因為ES是基於Lucene的，Lucene的核心是文檔，一個索引就是一個文件夾，里面存儲都是文檔，所以沒有type的物理概念。ES里面提供了這樣一個概念。是一組Field定義相同的文檔的集合。那么我們要刪除特定的集合的文檔，比如一個type下的，怎么做的？Lucene提供了delete by query的能力，那么，我們就按照這個去做就是了：

QueryBuilder builder = QueryBuilders.typeQuery(type);//查詢整個type

DeleteByQueryAction.INSTANCE.newRequestBuilder(client).source(indexName).filter(builder).execute().actionGet();

好了，最后再提一點，所有的操作之后，都至少要等待1s，因為ES/Lucene是近實時，而不是准實時，索引才做之后，會有默認的刷新時間，之后才可以將更新真正生效。一定要注意這點。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 使用JAVA操作ElasticSearch（Java API 和Spring Data ElasticSearch) Elasticsearch-Java API操作（一）API基本操作（10）【更新文檔數據（update）】 elasticsearch5.0.1安裝 marvel 插件 Elasticsearch 2.3 java api Java操作ElasticSearch java操作ELasticSearch Java代碼操作Elasticsearch ElasticSearch之Java的基本操作一 elasticsearch JAVA API小例子 Elasticsearch的CRUD：REST與Java API