Elasticsearch 8的版本來了;可以直接在 Elasticsearch 中使用 PyTorch Machine Learning 模型


Elasticsearch 是一個基於 Lucene 庫的搜索引擎。它提供了一個分布式、支持多租戶的全文搜索引擎,具有 HTTP Web 接口和無模式 JSON 文檔。Elasticsearch 是用 Java 開發的,並在 Apache 許可證下作為開源軟件發布。官方客戶端在 Java、.NET(C#)、PHP、Python、Apache Groovy、Ruby 和許多其他語言中都是可用的。
時隔近三年,Elasticsearch 8 正式發布,新增的功能包括:

7.x REST API 兼容性

8.0 為 Elasticsearch REST APIs 引入了一些重大的變化。雖然更新你的應用程序以適應這些變化十分重要,但在升級后尋找和更新每一個 API 調用可能對開發者而言十分痛苦且容易出錯。為了使這個過程變得更加容易,Elasticsearch 已經在 REST API 中增加了對 7.x 兼容性 header 的支持。這些可選的 header 文件讓你向 8.0 集群發出 7.x 兼容的請求,並收到 7.x 兼容的響應。雖然官方仍然建議開發者更新你的應用程序以使用原生的 8.0 請求和響應,但 7.x API 兼容 header 文件讓你可以在更長的時間內安全地進行這些更改。

安全功能在默認情況下被啟用和配置

在沒有安全保障的情況下運行 Elasticsearch 會讓你的集群暴露在任何可以向 Elasticsearch 發送請求的用戶面前。在以前的版本中,你必須明確地啟用 Elasticsearch 的安全功能,如認證、授權和網絡加密(TLS)。從 Elasticsearch 8.0 開始,當第一次啟動 Elasticsearch 時,安全功能被默認啟用和配置。在啟動時,Elasticsearch 8.0 會生成注冊令牌,你可以用它來連接 Kibana 實例或在安全的 Elasticsearch 集群中注冊其他節點,而無需生成安全證書或更新 YAML 配置文件。只需在啟動新節點或 Kibana 實例時使用生成的注冊令牌,Elastic Stack 就會為你處理所有安全配置。已知問題:

如果你在 Linux ARM 或 macOS M1 等 arch64 平台上從歸檔中安裝 Elasticsearch,那么在首次啟動節點時,不會自動生成 elastic 用戶密碼和 Kibana 注冊令牌。節點啟動后,需要用 bin/elasticsearch-reset-password 工具生成 elastic 密碼:

bin/elasticsearch-reset-password -u elastic

然后,用 bin/elasticsearch-create-enrollment-token 工具為 Kibana 創建一個注冊令牌: 

bin/elasticsearch-create-enrollment-token -s kibana

更好地保護系統索引

系統索引為 Elastic 功能存儲配置和內部數據。一般來說,系統索引僅保留供這些功能內部使用。雖然有可能,但直接訪問或改變系統索引會導致不穩定和其他問題。在 Elasticsearch 8.0 中做了一些改變來保護系統索引不被直接訪問。要訪問系統索引的話,用戶現在必須把 allow_restricted_indices 權限設置為 truesuperuser 角色也不再給予系統索引的寫入權限。因此,內置的 elastic superuser 默認不能改變系統索引。此后,開發者應使用 Kibana 或相關的 Elasticsearch APIs 來管理某個功能的數據,而不是訪問系統索引。如果你直接訪問系統索引,Elasticsearch 將在 API 響應的 header 中和廢棄日志中返回警告。

新的 KNN 搜索 API

在 Elasticsearch 8.0 中推出了 KNN 搜索 API 的技術預覽版。通過使用 dense_vector 字段,k-nearest neighbor(KNN)搜索可以找到與查詢向量最近的 k 個向量(這是由相似度指標來衡量的)。KNN 通常被用來支持推薦引擎和基於自然語言處理(NLP)算法的相關性排名。以前,Elasticsearch 只支持精確的 KNN 搜索,使用帶向量函數的 script_score 查詢。雖然這種方法保證了准確的結果,但它往往導致搜索速度緩慢,而且在大型數據集上不能很好地擴展。作為對較慢的索引和不完美的准確性的交換,新的 KNN 搜索 API 讓你在更大的數據集上以更快的速度運行近似的 KNN 搜索。

為 keyword、 match_only_text 和 text 字段節省存儲空間

該版本更新了倒排索引,這是一個內部數據結構,可以使用更節省空間的編碼。這一變化將使 keyword、 match_only_text 字段以及 text 字段受益。在使用應用程序日志的基准測試中,這一轉變為 message 字段(映射為 match_only_text)的索引大小減少了 14.4%,總體上減少了 3.5% 的磁盤占用空間。

加快 geo_pointgeo_shape 和范圍字段索引速度

新版本優化了多維點(multi-dimensional points)的索引速度,多維點是用於 geo_pointgeo_shape 和范圍字段的內部數據結構。Lucene 級別的基准測試顯示,這些字段類型的索引速度提高了 10-15%。主要由這些字段組成的 Elasticsearch 索引和數據流可能會在索引速度方面有顯著的改進。

PyTorch 模型支持自然語言處理(NLP)

現在可以上傳在 Elasticsearch 之外訓練的 PyTorch 模型,並使用它們進行推理。第三方模型支持為 Elastic Stack 帶來了現代自然語言處理(NLP)和搜索用例。

 

更多詳情可查看:https://www.elastic.co/cn/blog/whats-new-elastic-8-0-0


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM