IK Analysis for Elasticsearch


ik下載

  • 打開Github官網,搜索elasticsearch-analysis-ik,單擊medcl/elasticsearch-analysis-ik。或者直接點擊

  • readme.md文件中,下拉選擇預編譯版本。

  • 由於ikelasticsearch存在兼容問題。所以在下載ik時要選擇和elasticsearch版本一致的,也就是選擇v6.5.4版本,單擊elasticsearch-analysis-ik-6.5.4.zip包,自動進入下載到本地。

  • 本地下載成功后,是個zip包。

安裝

  • 首先打開C:\Program Files\elasticseach-6.5.4\plugins目錄,新建一個名為ik的子目錄,並將elasticsearch-analysis-ik-6.5.4.zip包解壓到該ik目錄內也就是C:\Program Files\elasticseach-6.5.4\plugins\ik目錄。

測試

  • 首先將elascticsearchkibana服務重啟。
  • 然后地址欄輸入http://localhost:5601,在Dev Tools中的Console界面的左側輸入命令,再點擊綠色的執行按鈕執行。
GET _analyze
{
  "analyzer": "ik_max_word",
  "text": "上海自來水來自海上"
}

右側就顯示出結果了如下所示:

{
  "tokens" : [
    {
      "token" : "上海",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "自來水",
      "start_offset" : 2,
      "end_offset" : 5,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "自來",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "水",
      "start_offset" : 4,
      "end_offset" : 5,
      "type" : "CN_CHAR",
      "position" : 3
    },
    {
      "token" : "來自",
      "start_offset" : 5,
      "end_offset" : 7,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "海上",
      "start_offset" : 7,
      "end_offset" : 9,
      "type" : "CN_WORD",
      "position" : 5
    }
  ]
}

OK,安裝完畢,非常的簡單。

ik目錄簡介

我們簡要的介紹一下ik分詞配置文件:

  • IKAnalyzer.cfg.xml,用來配置自定義的詞庫
  • main.dic,ik原生內置的中文詞庫,大約有27萬多條,只要是這些單詞,都會被分在一起。
  • surname.dic,中國的姓氏。
  • suffix.dic,特殊(后綴)名詞,例如鄉、江、所、省等等。
  • preposition.dic,中文介詞,例如不、也、了、仍等等。
  • stopword.dic,英文停用詞庫,例如a、an、and、the等。
  • quantifier.dic,單位名詞,如厘米、件、倍、像素等。

see also:[IK Analysis for Elasticsearch](https://github.com/medcl/elasticsearch-analysis-ik) | [elasticsearch build-in Analyzers](https://www.elastic.co/guide/en/elasticsearch/reference/current/analysis-analyzers.html) 歡迎斧正,that's all


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM