StreamSets是一個大數據采集工具,數據源支持包括結構化和半/非結構化,目標源支持HDFS,HBase,Hive,Kudu,Cloudera Search, ElasticSearch等。它包括一個拖拽式的可視化數據流程設計界面,定時任務調度等功能。舉例,它可以將數據源從Kafka+Spark Streaming連接到你的Hadoop集群,而不需要寫一行代碼。
StreamSets並沒有集成在cdh中,因此需要我們自己去官方下載軟件包
下載地址: https://archives.streamsets.com/index.html
下載下來的文件如下,軟件包有4.6G左右,需要點耐心
配置本地yum源
新建一個目錄,把STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel, manifest.json放目錄里
mkdir /var/www/html/streamsets mv STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel /var/www/html/streamsets mv manifest.json /var/www/html/streamsets cd /var/www/html/streamsets createrepo .
配置yum

[root@cm ~]# cat /etc/yum.repos.d/ss.repo [ssrepo] name = ss_repo baseurl = http://10.1.1.120/streamsets enable = true gpgcheck = false
把ss.repo拷貝到集群其他節點,然后執行 yum. repolist,可以看到配置的yum 源
下載分發激活Parcel包
主機---Parcel---配置
點擊下載--分配--激活,因為包比較大,時間可能會稍微有點長
#######小坑##########
就是分配過程中cloudera server那台機一直卡在那里,其他節點沒問題,進行了回滾操作

#curl -u user:password -X POST http://cm.bigdata-heboan.com:7180/api/v18/clusters/cdh-heboan/parcels/products/{product}/versions/{version}/commands/deactivate curl -u admin:admin -X POST http://cm.bigdata-heboan.com:7180/api/v18/clusters/cdh-heboan/parcels/products/STREAMSETS_DATACOLLECTOR/versions/3.10.0/commands/deactivate
后面發現,是clouder server這台機器的/etc/cloudera-scm-agent/config.ini 中的server_host是localhost,后面改為如下問題解決

...
# Hostname of the CM server.
server_host=cm.bigdata-heboan.com
中途遇到一次提示STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel哈希驗證失敗,解決辦法是去到cm機器上的/opt/cloudera/parcel-repo目錄
執行 sha1sum /opt/cloudera/parcel-repo, 把得出的哈希值替換STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel.sha里面的內容
添加服務
選擇StreamSets
分配角色
數據目錄
啟動成功后
點擊Data Collector Web UI
默認賬號: admin/admin