storm啟動一段時間后,無征兆的停止了,然后nimbus,supervisor,ui所有的worker都stop了。
我用的storm是0.8.2版本的
nimbus中留下的log如下
2014-02-19 17:05:35 nimbus [INFO] Shutting down master 2014-02-19 17:05:35 ClientCnxn [INFO] EventThread shut down 2014-02-19 17:05:35 ZooKeeper [INFO] Session: 0x14395fa892b0032 closed 2014-02-19 17:05:35 nimbus [INFO] Shut down master
看到storm作者的wiki Fault-tolerance
中間有一句話:the Nimbus and Supervisor daemons must be run under supervision using a tool like daemontools or monit.
所以nimbus,supervisor和ui進程都用daemontools管理起來,這樣意外進程終止的時候,可以自動重啟進程。
daemontools管理進程的配置可以參見之前的一個博文 daemontools管理fast-fail的zookeeper