Druid入門(1)—— 快速入門實時分析利器-Druid_0.17


一、安裝准備

本次安裝的版本是截止2020.1.30最新的版本0.17.0

軟件要求

  • 需要Java 8(8u92 +)以上的版本,否則會有問題

  • Linux,Mac OS X或其他類似Unix的操作系統(不支持Windows)

硬件要求

Druid包括一組參考配置和用於單機部署的啟動腳本:

  • nano-quickstart
  • micro-quickstart
  • small
  • medium
  • large
  • xlarge

單服務器參考配置

Nano-Quickstart:1個CPU,4GB RAM
  • 啟動命令: bin/start-nano-quickstart
  • 配置目錄: conf/druid/single-server/nano-quickstart
微型快速入門:4個CPU,16GB RAM
  • 啟動命令: bin/start-micro-quickstart
  • 配置目錄: conf/druid/single-server/micro-quickstart
小型:8 CPU,64GB RAM(〜i3.2xlarge)
  • 啟動命令: bin/start-small
  • 配置目錄: conf/druid/single-server/small
中:16 CPU,128GB RAM(〜i3.4xlarge)
  • 啟動命令: bin/start-medium
  • 配置目錄: conf/druid/single-server/medium
大型:32 CPU,256GB RAM(〜i3.8xlarge)
  • 啟動命令: bin/start-large
  • 配置目錄: conf/druid/single-server/large
大型X:64 CPU,512GB RAM(〜i3.16xlarge)
  • 啟動命令: bin/start-xlarge

  • 配置目錄: conf/druid/single-server/xlarge

我們這里做測試使用選擇最低配置即可nano-quickstart

二、下載安裝包

訪問官網:

http://druid.io/現在也會跳轉https://druid.apache.org/

或者直接訪問https://druid.apache.org/

file

點擊download進入下載頁面:

file

選擇最新版本: apache-druid-0.17.0-bin.tar.gz 進行下載

200多M

file

也可以選擇下載源碼包 用maven進行編譯

三、安裝

上傳安裝包

在終端中運行以下命令來安裝Druid:

tar -xzf apache-druid-0.17.0-bin.tar.gz
cd apache-druid-0.17.0

安裝包里有這幾個目錄:

file

  • LICENSENOTICE文件
  • bin/* -腳本
  • conf/* -單服務器和集群設置的示例配置
  • extensions/* -擴展
  • hadoop-dependencies/* -Druid Hadoop依賴
  • lib/* -Druid庫
  • quickstart/* -快速入門教程的配置文件,樣本數據和其他文件

配置文件

#進入我們要啟動的配置文件位置:
cd conf/druid/single-server/nano-quickstart/

file

_common 公共配置

file

是druid一些基本的配置,比如元數據庫地址 各種路徑等等

其他的是各個節點的配置

比較類似,比如broker

cd broker/

file

jvm配置

main配置

runtime運行時相關的配置

回到主目錄

啟動的conf在

cd conf/supervise/single-server

file

里面是不同配置啟動不同的腳本

四、啟動

回到主目錄

./bin/start-nano-quickstart

啟動成功:

file

訪問

localhost:8888

看到管理頁面

file

如果要修改端口,需要修改配置的端口和主目錄下的

vi bin/verify-default-ports 

五、加載數據

Druid提供了一個示例數據文件,其中包含2015年9月12日發生的Wiki的示例數據。

此樣本數據位於quickstart/tutorial/wikiticker-2015-09-12-sampled.json.gz

示例數據大概是這樣:

{
  "timestamp":"2015-09-12T20:03:45.018Z",
  "channel":"#en.wikipedia",
  "namespace":"Main",
  "page":"Spider-Man's powers and equipment",
  "user":"foobar",
  "comment":"/* Artificial web-shooters */",
  "cityName":"New York",
  "regionName":"New York",
  "regionIsoCode":"NY",
  "countryName":"United States",
  "countryIsoCode":"US",
  "isAnonymous":false,
  "isNew":false,
  "isMinor":false,
  "isRobot":false,
  "isUnpatrolled":false,
  "added":99,
  "delta":99,
  "deleted":0,
}

Druid加載數據分為以下幾種:

  • 加載文件
  • 從kafka中加載數據
  • 從hadoop中加載數據
  • 自定義加載方式

我們這樣演示一下加載示例文件數據

1、進入localhost:8888 點擊load data

file

2、選擇local disk

file

3、選擇Connect data

file

4、預覽數據

Base directory輸入quickstart/tutorial/

File filter輸入 wikiticker-2015-09-12-sampled.json.gz

然后點擊apply預覽 就可以看見數據了 點擊Next:parse data解析數據

file

5、解析數據

可以看到json數據已經被解析了 繼續解析時間

file

6、解析時間

解析時間成功 之后兩步是transform和filter 這里不做演示了 直接next

file

7、確認Schema

這一步會讓我們確認Schema 可以做一些修改

由於數據量較小 我們直接關掉Rollup 直接下一步

file

8、設置分段

這里可以設置數據分段 我們選擇hour next

file

9、確認發布

file

file

10、發布成功 開始解析數據

file

等待任務成功

file

11、查看數據

選擇datasources 可以看到我們加載的數據

可以看到數據源名稱 Fully是完全可用 還有大小等各種信息

file

12、查詢數據

點擊query按鈕

我們可以寫sql查詢數據了 還可以將數據下載

file

Druid相關博文

什么是Druid

大數據流動 專注於大數據實時計算,數據治理,數據可視化等技術分享與實踐。
請在后台回復關鍵字下載相關資料。相關學習交流群已經成立,歡迎加入~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM