客戶問題:
因為部分節點 pod 數量達到上限,無法通過前置檢查
問題原因:
集群升級需要在節點上運行一個pod,用於集群升級。前置檢查中也需要在節點上運行一個pod,進行節點檢查。所以節點的pod限額被用光會導致無法升級。這是一個Corner case
臨時方案:
對集群進行擴容,將pod配額用光的節點上的pod,驅逐一到兩個到新的節點上,從而為集群升級和前置檢查騰出空間,完成升級
產品化方案:
為每個集群都創建一個daemon set,在每個節點上常駐一個pod,后續前置檢查和集群升級都通過這個常駐pod完成。