CDH部署StreamSets

本文轉載自查看原文 2019-08-04 21:57 425

StreamSets是一個大數據采集工具，數據源支持包括結構化和半/非結構化，目標源支持HDFS，HBase，Hive，Kudu，Cloudera Search, ElasticSearch等。它包括一個拖拽式的可視化數據流程設計界面，定時任務調度等功能。舉例，它可以將數據源從Kafka+Spark Streaming連接到你的Hadoop集群，而不需要寫一行代碼。

StreamSets並沒有集成在cdh中，因此需要我們自己去官方下載軟件包

下載地址： https://archives.streamsets.com/index.html

下載下來的文件如下，軟件包有4.6G左右，需要點耐心

配置本地yum源

新建一個目錄，把STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel， manifest.json放目錄里

mkdir /var/www/html/streamsets
mv STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel /var/www/html/streamsets
mv manifest.json /var/www/html/streamsets
cd /var/www/html/streamsets
createrepo .

配置yum

[root@cm ~]# cat /etc/yum.repos.d/ss.repo 
[ssrepo]
name = ss_repo
baseurl = http://10.1.1.120/streamsets
enable = true
gpgcheck = false

yum源

把ss.repo拷貝到集群其他節點，然后執行 yum. repolist，可以看到配置的yum 源

下載分發激活Parcel包

主機---Parcel---配置

點擊下載--分配--激活，因為包比較大，時間可能會稍微有點長

#######小坑##########

就是分配過程中cloudera server那台機一直卡在那里，其他節點沒問題，進行了回滾操作

#curl -u user:password -X POST http://cm.bigdata-heboan.com:7180/api/v18/clusters/cdh-heboan/parcels/products/{product}/versions/{version}/commands/deactivate


curl -u admin:admin -X POST http://cm.bigdata-heboan.com:7180/api/v18/clusters/cdh-heboan/parcels/products/STREAMSETS_DATACOLLECTOR/versions/3.10.0/commands/deactivate

回滾

后面發現，是clouder server這台機器的/etc/cloudera-scm-agent/config.ini 中的server_host是localhost，后面改為如下問題解決

...
# Hostname of the CM server.
server_host=cm.bigdata-heboan.com

config.ini

中途遇到一次提示STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel哈希驗證失敗，解決辦法是去到cm機器上的/opt/cloudera/parcel-repo目錄

執行 sha1sum /opt/cloudera/parcel-repo, 把得出的哈希值替換STREAMSETS_DATACOLLECTOR-3.10.0-el7.parcel.sha里面的內容

添加服務

選擇StreamSets

分配角色

數據目錄

啟動成功后

點擊Data Collector Web UI

默認賬號： admin/admin

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Docker部署CDH集群 CDH 安裝與部署 CDH 5.16.1 離線部署 & 通過 CDH 部署 Hadoop 服務 CDH5.12.1 安裝部署 CDH 部署 Hadoop：5.開始安裝 CDH集群搭建部署 CDH簡易離線部署文檔 Cloudera Manager和CDH安裝部署 CDH | CDH6.3.1集群離線部署 streamsets 安裝