最近幾天在做spark數據同步過程中,中間通過kafka集群處理消息,每次同步到一半就會出現同步不了
查看日志如下:
最開始看到這個問題很懵逼,完全找不到解決問題的切入口,期間也詢問了架構師-因為這個kafka和spark都是他引進來的,同時也問了運維同事,有沒有碰到這個問題,最后都是無法解決這個問題
查看對應存在問題的kafka節點的日志:
一次突發奇想,是不是可以看一下kafka集群的日志,發現此時kafka集群也報錯了,其實有時候看到錯誤還是很開心的,畢竟有錯誤才知道哪里存在問題
但是看到上面兩個錯誤,給出的共同結果是kafka集群找不到topic的分區節點,但是這個環境貌似都是腳本話的安裝,不存在什么問題啊,也檢查了相關的配置,而且每次跑同步任務都是前面十幾分鍾都沒啥問題,跑了十幾分鍾后才會出現上述問題
同時也檢查了zk集群上的數據配置,也沒啥問題,其實出現了這個問題,主要還是kafka集群和zookeeper存在問題,因為這個問題已經折騰了大量的時間,主要這個問題在線上和在3套功能測試環境都是沒有問題,唯獨在性能測試環境存在問題
最后,通過嘗試刪除kafka集群中的所有在zk上注冊的keys,重新啟動kafka集群,問題總算解決
參考:
https://www.jianshu.com/p/a036405f989c
https://www.jianshu.com/p/31b1a37e43ef
https://www.cnblogs.com/qingyunzong/p/9007107.html
https://www.cnblogs.com/WardSea/p/7400739.html
https://www.cnblogs.com/frankdeng/p/9310713.html
https://www.cnblogs.com/saneri/p/8762168.html