這兩天接到任務說是要進行測試縮減機器給集群帶來的負面效果有哪些。
然后我就按照官方的教程將機器進行了縮減,主要是縮減tikv節點
我們先來看看官方的文章是怎么寫的:
步驟都沒有什么問題,就是進行到第二步的時候,一定要等到節點的狀態變成“Tombstone”才可以正常下線。但在剛開始的時候,他的狀態一直是“offline”,此時的狀態說明節點正在遷移leader節點和數據,官方說是等待幾分鍾就可以了,而我在進行縮減三個節點中,有一個節點等了兩天還是“offline”的狀態,我覺得這肯定是有問題的,然后我就繼續往下執行了第三步,等了大半天,還是這樣的狀態,再后來我對中控機進行壓力測試的時候,發現這個刪除的tikv節點還能進行存儲計算,然后我就懵逼了,這么長時間還沒有遷移完。tidb的效率有時候太低了,沒辦法只能慢慢等了。
加機器節點tikv:
我這里加機器一共有兩台,第一台是使用一個全新的機器進行添加,添加的步驟我們直接按照官網的步驟來即可:https://www.pingcap.com/docs-cn/op-guide/ansible-deployment-scale/
第一台機器非常好添加,按照官方的步驟直接執行以下即可。而第二台就比較麻煩了,這個機器是。執行了好幾遍,中控機使用ansile執行沒有報錯,也成功了,但是此tikv節點所在機器上並沒有關於tikv的相關進程,讓我很是頭疼,連續執行了好幾次都沒有成功。
后來我在按照官方步驟的時候這樣子來做,算是成功了:
主要是紅色方框的這些信息,然后我突然想到我的配置文件也是這么寫的:
我前面的這個紅色方框不就是節點的別名嗎?然后我就這樣子來嘗試一下,最后真的成功了,在部署新節點的時候,使用這個別名來部署,最后成功了。
所以說大家以后看信息的時候一定要仔細一點來,不能慌