ELK-logstash導入數據以及配合kibana使用
1、數據集下載
MovieLens數據集包含多個用戶對多部電影的評級數據,也包括電影元數據信息和用戶屬性信息。本文所用的數據為1M的數據,對應的版本是ml-latest-small.zip。點擊此處下載
這個數據集經常用來做推薦系統,機器學習算法的測試數據集。尤其在推薦系統領域,很多著名論文都是基於這個數據集的。(PS: 它是某次具有歷史意義的推薦系統競賽所用的數據集)。
2、配置文件
logstash.conf
1 input { 2 file { 3 path =>["D:/logstash-6.0.0/movielens/ml-latest-small/movies.csv"] #csv文件路徑 4 start_position => "beginning" 5 sincedb_path => "D:/logstash-6.0.0/movielens/ml-latest-small/null" #監聽文件讀取信息記錄的位置:beginning表示從頭開始讀取文件,end表示讀取最新的 6 } 7 } 8 filter { #filter插件負責過濾解析input讀取的數據 9 csv { 10 separator => "," #拆分符 11 columns => ["id","content","genre"] #csv文件中的字段,注意:要和 csv文件中字段順序一致 12 } 13 14 mutate { 15 split => { "genre" => "|" } 16 remove_field => ["path", "host","@timestamp","message"] 17 } 18 19 mutate { 20 21 split => ["content", "("] 22 add_field => { "title" => "%{[content][0]}"} 23 add_field => { "year" => "%{[content][1]}"} 24 } 25 26 mutate { 27 convert => { 28 "year" => "integer" 29 } 30 strip => ["title"] 31 remove_field => ["path", "host","@timestamp","message","content"] 32 } 33 34 } 35 output { 36 elasticsearch { 37 hosts => "http://localhost:9200" 38 index => "movies" 39 document_id => "%{id}" 40 } 41 stdout {} 42 }
然后在logstash所在的bin目錄下執行:logstash -f logstash.conf
如果出現類似下圖,就說明數據集導入成功
3、配合Kinaba使用
1)創建索引
2)discover-分析
可以看出針對類型中的每一個字段,對應的每一個值的所占占比,都會有柱狀圖以及百分比顯示。
參考鏈接:
https://www.jianshu.com/p/58b1087f12b3