SRE面試題


一、Kubernetes

K8s的集群組件有哪些?功能是什么?

初始化容器和SideCar容器的作用和區別

Nginx Ingress的原理本質是什么?

kubectl命令相關:如何修改副本數,如何滾動更新和回滾,如何查看pod的詳細信息,如何進入pod交互?

就緒探針和判活探針的區別和作用?

如何修改Pod的時間,且不會影響其他Pod,只作用於修改的那個Pod?

PV和PVC的關系,StorageClass是什么?

K8s集群節點需要關機維護,需要怎么操作?

Pod創建過程是什么?

預防集群雪崩措施?

Pod狀態Crash了,如何去排查?

容器優雅關閉?

有了解QoS嗎?怎么實現的?

kubectl exec 實現的原理?

詳述kube-proxy原理?

網絡選型需要注意什么?

你們監控用的什么,怎么利用普羅米修斯監控pod信息,k8s狀態,如果來設計相關的監控如何落地?

節點NotReady是什么導致的?NotReady會發生什么?

設想kubernetes集群管理從一千台節點到五千台節點,可能會遇到什么樣的瓶頸。應該如何解決?

K8s集群如何去監控的,簡要舉幾個關鍵的監控例子?

灰度發布是什么。如何使用k8s現有的資源實現灰度發布?

設想一個一千台物理機,上萬規模的容器的kubernetes集群,請詳述使用kubernetes時需要注意哪些問題?應該怎樣解決?(提示可以從高可用,高性能等方向,覆蓋到從鏡像中心到kubernetes各個組件等)?

k8s的service和ep是如何關聯和相互影響的?

詳述kube-proxy原理,一個請求是如何經過層層轉發落到某個pod上的整個過程。請求可能來自pod也可能來自外部?

rc/rs功能是怎么實現的。詳述從API接收到一個創建rc/rs的請求,到最終在節點上創建pod的全過程,盡可能詳細。另外,當一個pod失效時,kubernetes是如何發現並重啟另一個pod的?

cgroup中的cpu有哪幾種限制方式。k8s是如何使用實現request和limit的?

介紹k8s實踐中踩過的比較大的一個坑和解決方式?

如何去上線的,Jenkins Pipeline 共享庫、灰度發布是什么。如何使用K8s現有的資源實現灰度發布?

設想一個一千台物理機,上萬規模的容器的kubernetes集群,請詳述使用Kubernetes時需要注意哪些問題?應該怎樣解決?(提示可以從高可用,高性能等方向,覆蓋到從鏡像中心到kubernetes各個組件等)?

設想Kubernetes集群管理從一千台節點到五千台節點,可能會遇到什么樣的瓶頸。應該如何解決?

Kubernetes的運營中有哪些注意的要點?

介紹K8s實踐中踩過的比較大的一個坑和解決方式?

二、Prometheus

prometheus對比zabbix有哪些優勢?

prometheus組件有哪些,功能是什么?

指標類型有哪些?

在應對上千節點監控時,如何保障性能?

簡述從添加節點監控到grafana成圖的整個流程?

在工作中用到了哪些exporter?

報警收斂怎么做的?

三、ELk

Elasticsearch的數據如何備份與恢復?

你們項目中使用的logstash過濾器插件是什么?實現哪些功能?

是否用了索引Template?對ES集群做了哪些優化?

kibana如何自定義圖表和儀表盤?

elasticsearch分片副本是什么?你們配置的參數是多少?、集群規模?、qps峰值和平均峰值?

四、docker

dockerfile有哪些關鍵字?用途是什么?

如何減小dockerfile生成鏡像體積?

dockerfile中CMD與ENTRYPOINT區別是什么?

dockerfile中COPY和ADD區別是什么?

命令相關:導入導出鏡像,進入容器,設置重啟容器策略,查看鏡像環境變量,查看容器占用資源?

構建鏡像有哪些方式?

五、 Linux

如何清空Kafka某個topic里的消息

nginx日志訪問量前十的ip怎么統計?

nginx負載均衡算法有哪些?

如何升級內核,目前最新版本號多少?

大於2T的磁盤如何分區?

刪除/var/log/下.log結尾的30天前的日志文件?

磁盤100%,服務器上找不到對應的文件,排查思路?

新上接口時好時壞,排查思路?

收到用戶反饋APP或網站無法訪問,你會怎么處理?

業務pv、QPS均值和峰值分別是多少?集群規模多少?怎么保障業務高可用?

在日常工作中遇到了什么棘手的問題,如何排查?

某個進程偶現CPU高,如何排查是哪里出現問題了?

監控系統、接口監控、錯誤日志監控、Nginx狀態監控、消息隊列擁堵監控、服務使用內存和CPU監控、服務器基礎監控?

老板偶爾用手機使用了咱們的產品,就出現了一個報錯,你該如何定位,我們這邊有多少多少的並發?

六、NoSQL

Redis數據持久化有哪些方式?

Redis集群方案有哪些?

Redis如何進行數據備份與恢復?

MongoDB如何進行數據備份?

Kafka為何比Redis RabbitMQ快?

七、開發

Flask和Django區別,應用場景?

列舉常用的Git命令?

開發的運維平台有哪些,講一個自認為寫的最好的一個平台?

舉一個平常寫的印象深刻的Python腳本,為了實現什么需求?

Python yeild用法,並發,多線程?

Python裝飾器的作用以及舉一到2個例子說下項目中用到Python裝飾器的地方?

Python打開一個文件,找出某個字符串最快的方法?

你做的平台,前后端交互怎么實現?

八、Kafka

Apache Kafka 是什么?

什么是消費者組?

在 Kafka 中,ZooKeeper 的作用是什么?

解釋下 Kafka 中位移(offset)的作用?

闡述下 Kafka 中的領導者副本(Leader Replica)和追隨者副本(Follower Replica)的區別?

如何設置 Kafka 能接收的最大消息的大小?

監控 Kafka 的框架都有哪些?

Broker 的 Heap Size 如何設置?

如何估算 Kafka 集群的機器數量?

深度思考題

Leader 總是 -1,怎么破?

LEO、LSO、AR、ISR、HW 都表示什么含義?

__consumer_offsets 是做什么用的?

簡述 Follower 副本消息同步的完整流程?

Controller 發生網絡分區(Network Partitioning)時,Kafka 會怎么樣?

如何調優 Kafka?

九、提問環節

這個崗位每天、每周、每月都做什么?

這個崗位當前需要立即解決的痛點?

團隊規模&協作與溝通的模式?

集群與服務規模?

當前架構/業務與未來演進方向?


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM