這是ElasticSearch 2.4 版本系列的第九篇:
- ElasticSearch入門 第一篇:Windows下安裝ElasticSearch
- ElasticSearch入門 第二篇:集群配置
- ElasticSearch入門 第三篇:索引
- ElasticSearch入門 第四篇:使用C#添加和更新文檔
- ElasticSearch入門 第五篇:使用C#查詢文檔
- ElasticSearch入門 第六篇:復合數據類型——數組,對象和嵌套
- ElasticSearch入門 第七篇:分析器
- ElasticSearch入門 第八篇:存儲
- ElasticSearch入門 第九篇:實現正則表達式查詢的思路
ElasticSearch 2.4版本支持Java正則表達式查詢,但是,在對大段的文本(Text Block)進行挖掘之前,必須了解正則表達式查詢的特殊之處。由於分析器會對文本字段進行分詞,移除停用詞,小寫轉換等操作,最終存儲在倒轉索引中的是小寫的標記流(Token Stream),默認情況下,每一個標記是一個分詞(Term),這無法滿足正則表達式查詢的一般要求,這就是說,正則表達式查詢的是原始文本,需要注意的是,ElasticSearch引擎都是從原始文本的第一個字符開始執行正則表達式匹配。
在ElasticSearch 2.4版本中啟用正則表達式查詢之前,需要考慮兩個問題:分詞嗎?大小寫敏感嗎?
一,分詞還是不分詞?
通常情況下,ElasticSearch引擎對文本字段進行分詞,移除停用詞,轉換成小寫,這是全文搜索的標准配置,在這種設置下,正則表達式只能匹配文本字段的單個分詞,而無法對原始文本執行正則表達式查詢,為了實現正則表達式查詢,必須設置文本字段不被分詞,也就是是設置該字段的index屬性為not_analyzed。在實際的產品環境中,對一個字段同時執行正則表達式查詢和全文搜索的情況是經常存在的,ElasticSearch 2.4版本提供的映射參數 fields 能夠滿足該需求。
fields 參數:多元字段(multi-fields),用不同的處理方式,把一個相同的字段編入索引,以實現不同的目的。多元字段使用相同的數據派生新的字段,例如,一個字段field被編入索引作為分析字段(analyzed field)以執行全文搜索,把該字段設置為多元字段,那么ElasticSearch引擎派生一個新的字段field .raw,該字段文本作為一個詞被編入索引,只對該字段執行排序或聚合操作。
注:多元字段(multi-fields)不同於多值字段(multi-values field),字段的多值是ElasticSearch內在支持的特性,“開箱即用”,不需要做任何配置。每個字段都能存儲多個數據值,這就是意味着,每個字段都是數組類型,只不過在字段中存儲的數據,其數據類型都是相同的。
1,多元字段使用示例
在示例索引映射中,eventdescription是一個多元字段,其index屬性是analyzed,表示該字段是分析字段,ElasticSearch引擎把該字段的文本分析成分詞流,編入索引,以執行全文搜索,這就意味着,倒排索引中存儲的不是該字段的原始文本,而是分割的單個分詞;而eventdescription.raw是多元字段的派生字段,其index屬性是not_analyzed,表示該派生字段不會被分詞,整個文本字段整體作為一個分詞被編入索引,這就意味着,倒排索引中存儲的是派生字段原始的文本值。
"eventdescription":{ "type":"string",
"index":"analyzed", "fields":{ "raw":{ "type":"string",
"index":"not_analyzed" } } }
2,對原始文本執行正則表達式查詢
ElasticSearch引擎在處理分析字段(analyzed field)時,使用指定的分析器執行分析操作,包括分詞,移除停用詞,轉換大小寫等,如果一個字段不是分析字段,那么ElasticSearch引擎不會對其執行任何分析工作。
映射參數index:決定ElasticSearch引擎是否對文本字段執行分析操作,也就是說分析操作將分割文本,把分詞編入索引,並使分詞能夠被搜索到:
- 當參數值為analyzed時,該字段是分析字段,ElasticSearch引擎對該字段執行分析操作,把文本分割成分詞流,存儲在倒排索引中,使其支持全文搜索;
- 當參數值為not_analyzed時,該字段不會被分析,ElasticSearch引擎把原始文本作為單個分詞存儲在倒排索引中,不支持全文搜索,但是支持詞條級別的搜索;也就是說,字段的原始文本不經過分析而存儲在倒排索引中,使用原始文本編入索引,在搜索的過程中,查詢條件必須全部匹配整個原始文本;
- 當參數值為no時,該字段不會被存儲到倒排索引中,也不會被搜索到;
這也就意味着,要對原始文本執行正則表達式查詢,必須設置index屬性為not_analyzed,這也就意味着,保留文本的原始形式,例如大小寫,空格等。
3,單個分詞的最大長度
如果設置字段的index屬性為not_analyzed,原始文本將作為單個分詞,其最大長度跟UTF8 編碼有關,默認的最大長度是32766Bytes,如果字段的文本超過該限制,那么ElasticSearch將跳過(Skip)該文檔,並在Response中拋出異常消息:
operation[607]: index returned 400 _index: ebrite _type: events _id: 76860 _version: 0 error: Type: illegal_argument_exception Reason: "Document contains at least one immense term in field="event_raw" (whose UTF8 encoding is longer than the max length 32766), all of which were skipped. Please correct the analyzer to not produce such terms. The prefix of the first immense term is: '[112, 114,... 115]...', original message: bytes can be at most 32766 in length; got 35100" CausedBy:Type: max_bytes_length_exceeded_exception Reason: "bytes can be at most 32766 in length; got 35100"
可以在字段中設置ignore_above屬性,該屬性值指的是字符數量,而不是字節數量;由於一個UTF8字符最多占用3個字節,因此,可以設置
“ignore_above”:10000
這樣,超過30000字節之后的字符將會被分析器忽略,單個分詞(Term)的最大長度是30000Bytes。
The value for
ignore_above
is the character count, but Lucene counts bytes. If you use UTF-8 text with many non-ASCII characters, you may want to set the limit to32766 / 3 = 10922
since UTF-8 characters may occupy at most 3 bytes.
二,大小寫敏感?
正則表達式查詢一般是區分大小寫的,有時,我們可能會希望,正則表達式查詢忽略大小寫,在這種情況下,多元字段(fields)就無法滿足需求了,多元字段不能執行文本大小寫轉換。為了解決這個問題,我們可以新建一個字段,在更新索引時,把原始文本導入到分析字段,把相同的數據轉換成小寫形式導入到另一個字段中,這樣做以后,分析字段及其派生字段,用於支持全文搜索和大小寫敏感的正則表達式查詢,另外一個字段用於忽略大小寫的正則表達式搜索。
"eventdescription":{ "type":"string",
"index":"analyzed", "fields":{ "raw":{ "type":"string",
"index":"not_analyzed" } } }, "eventdescription_lowcase":{ "type":"string",
"index":"not_analyzed" } }
三,存儲控制
為了實現正則表達式查詢,上例為一個數據創建三個字段,eventdescription、eventdescription.raw和 eventdescription_lowcase,這三個字段都需要存儲在倒排索引中,ElasticSearch引擎是否使用3倍的容量來存儲這個數據?
默認情況下,一旦字段值被編入索引,該字段能夠被搜索,但是,字段的原始值沒有存儲到倒排索引中,這就意味着,該字段能夠被搜索,卻不能從倒排索引中獲取該字段的原始值。通常情況下,這樣設計能夠節省硬盤存儲空間,不會對應用程序有什么影響,實際上,ElasticSearch引擎把該字段的原始值存儲在_source元字段中,默認情況下,_source元字段是存儲的。
1,存儲屬性(store)
字段的原始值是否被存儲到倒排索引,是由映射參數store決定的,默認值是false,也就是,原始值不存儲到倒排索引中。在特定的情況下,存儲字段的原始值是有意義的。例如,為了存儲一篇博客,文檔必須有title,date和一個非常大的正文字段(content),如果僅僅是獲取title和date,而不用獲取正文字段,那么你可以存儲title和date,並把content字段的store屬性設置為false。

"title":{ "type":"string", "store":true, "index":"analyzed" }, "date":{ "type":"date", "store":true, "index":"not_analyzed" }, "content":{ "type":"string", "store":false, "index":"analyzed" }
映射參數index和store的區別在於:
- store用於獲取(Retrieve)字段的原始值,不支持查詢,可以使用投影參數fields,對stroe屬性為true的字段進行過濾,只獲取(Retrieve)特定的字段,減少網絡負載;
- index用於查詢(Search)字段,當index為analyzed時,對字段的分詞執行全文查詢;當index為not_analyzed時,字段的原始值作為一個分詞,只能對字段的原始文本執行詞條查詢;
2,源字段(_source)
當把原始的JSON文檔傳遞到ElasticSearch引擎時,ElasticSearch引擎使用_source字段存儲最原始的JSON文檔。_source字段本身不會被索引,也不會被搜索,但是,該字段會存儲在倒排索引中,用於返回查詢的結果。
_source字段會導致索引存儲空間的增加,因此,可以禁用_source字段,但是,在禁用_source字段之前,請認真閱讀官方文檔《_source field》。
"mappings": { "tweet": { "_source": { "enabled": false } } }
一般情況下,不要禁用_source字段,當需要考慮占用的Disk空間時,請有限考慮壓縮存儲,提高壓縮等級。在配置文檔 中,壓縮選項是 index.codec,默認值是LZ4壓縮,設置best_compression 能夠提供更高的壓縮率,代價是降低數據存儲的性能。
四,一個字段包含所有文本?
為了實現正則表達式查詢,上例為一個數據創建三個字段,eventdescription、eventdescription.raw和 eventdescription_lowcase,這三個字段都需要存儲在倒排索引中,通常做法是,同時對這三個字段執行正則表達式查詢,但是在ElasticSearch中,在編碼上,可以更簡單。元字段 _all是一個特殊的“包羅萬象”(catch-all)的字段,把其他字段的值拼接成一個大的字符串,字段值之間使用空格分隔。ElasticSearch引擎先分析_all字段,然后編入索引,但是,默認情況下,不會存儲字段的原始值,這就意味着,_all字段能夠被搜索,但是不會返回原始值。_all 字段把所有字段的原始值,都視為字符類型,並把字段的原始值通過分隔符空格拼接在一起。
注意,添加到_all字段的是原始值,而不是字段分析之后的詞條(term)。字段的原始值是否包含到_all字段,是由該字段的屬性 include_in_all控制的,默認值是true。啟用_all字段是需要付出代價的,_all字段會消耗額外的CPU時鍾周期和更多的硬盤空間,如果不是必需,推薦把_all字段禁用掉。
"content": { "type": "string", "include_in_all": false },
當把_all字段禁用之后,用戶可以創建自定義的"_all"字段:新建一個數據類型為string的字段,並在需要拼接的字段中設置屬性“copy_to”。
在ElasticSearch中,每個索引只有一個_all字段,通過字段的屬性copy_to能夠創建自定義的"_all"字段。例如,字段 first_name和 last_name能夠通過分隔符空格被拼接到一起,作為full_name字段的值。

{ "mappings": { "mytype": { "properties": { "first_name": { "type": "string", "copy_to": "full_name" }, "last_name": { "type": "string", "copy_to": "full_name" }, "full_name": { "type": "string" } } } } } PUT myindex/mytype/1 { "first_name": "John", "last_name": "Smith" } GET myindex/_search { "query": { "match": { "full_name": "John Smith" } } }
默認情況下,_all字段不會存儲_source字段的值,也不會存儲原始值,這是因為_all字段是其他字段結合在一起組成的,存儲_all字段會占用大量的硬盤存儲空間,如果設置_all字段的屬性store為true,那么ElasticSearch引擎將會存儲_all字段的原始值,其原始值也能夠被獲取到。
五,示例
綜上所述,為了實現正則表達式查詢,為了實現正則表達式的查詢,有兩個設計思路
示例1,原始文本和小寫文本各使用一個字段
通過bool查詢的should子句,對多個字段執行正則表達式查詢,當字段較多,或者字段的文本特別大時,使用該方式,節省硬盤空間,但是要編寫更多的查詢代碼:
"eventdescription":{ "type":"string", "index":"analyzed", "fields":{ "raw":{ "type":"string", "index":"not_analyzed", "ignore_above":10000 } } }, "eventdescription_lowcase":{ "type":"string", "index":"not_analyzed", "ignore_above":10000 } }
示例2,添加冗余字段
在冗余字段上執行正則表達式查詢,當在多個字段上執行相同的正則表達式時,使用該方式,便於編程,但是要注意,拼接字段的大小不能超過限制(32766Bytes):

"eventdescription":{ "type":"string", "index":"analyzed", "copy_to":"eventdescription_regexp" }, "eventdescription_lowcase":{ "type":"string", "index":"not_analyzed", "copy_to":"eventdescription_regexp" }, "eventdescription_regexp":{ "type":"string", "index":"not_analyzed" }
參考文檔:
Elasticsearch Reference [2.4] » Mapping » Meta-Fields
Elasticsearch Reference [2.4] » Mapping » Mapping parameters
Elasticsearch Reference [2.4] » Query DSL » Term level queries » Regexp Query