1. 概述
作為 Kubernetes 最長使用的一種網絡插件,Calico 具有很強的擴展性,較優的資源利用和較少的依賴,相較於 Flannel 插件采用 Overlay 的網絡,Calico 可以通過三層路由的方式采用性能更佳的 Underlay 網絡,Calico 網絡插件的轉發效率是所有方案中較高的。
在使用 Calico 網絡插件的實際生產環境當中,為了提高網絡的性能和靈活性,需要將 K8S 的工作節點和物理網絡中的 leaf 交換機建立 bgp 鄰居關系,同步 bgp 路由信息,可以將 pod 網絡的路由發布到物理網絡中。Calico 給出了三種類型的 BGP 互聯方案,分別是 Full-mesh、Route reflectors 和 Top of Rack (ToR)。
Full-mesh
全互聯模式,啟用了 BGP 之后,Calico 的默認行為是在每個節點彼此對等的情況下創建完整的內部 BGP(iBGP)連接,這使 Calico 可以在任何 L2 網絡(無論是公有雲還是私有雲)上運行,或者說(如果配了 IPIP)可以在任何不禁止 IPIP 流量的網絡上作為 overlay 運行。對於 vxlan overlay,Calico 不使用 BGP。
Full-mesh 模式對於 100 個以內的工作節點或更少節點的中小規模部署非常有用,但是在較大的規模上,Full-mesh 模式效率會降低,較大規模情況下,Calico 官方建議使用 Route reflectors。
Route reflectors
如果想構建內部 BGP(iBGP)大規模集群,可以使用 BGP 路由反射器來減少每個節點上使用 BGP 對等體的數量。在此模型中,某些節點充當路由反射器,並配置為在它們之間建立完整的網格。然后,將其他節點配置為與這些路由反射器的子集(通常為冗余,通常為 2 個)進行對等,從而與全網格相比減少了 BGP 對等連接的總數。
Top of Rack(ToR)
在本地部署中,可以將 Calico 配置為直接與物理網絡基礎結構對等。通常,這需要涉及到禁用 Calico 的默認 Full-mesh 行為,將所有 Calico 節點與 L3 ToR 路由器對等。
本篇文章重點會介紹如何在 BGP 網絡環境下配置 Calico 路由反射器,本篇主要介紹將 K8S 工作節點作為路由反射器和物理交換機建立 BGP 連接。配置環境拓撲如下:

在本次環境中,分別有一台 spine 交換機和兩台 leaf 交換機來建立 EBGP 連接。所有 leaf 交換機都屬於一個獨立的自治系統,所有 leaf 交換機下的 node 都屬於一個獨立的自治系統。Kubernetes 集群節點中每個 leaf 下由兩台工作節點作為 CalicoRR(路由反射器),之所以用兩台 node 作為路由反射器是考慮冗余性,所有 Calico RR 都跟自己上聯的 leaf 交換機建立 EBGP 連接。Calico RR 和自己所屬的 node 之間建立 iBGP 連接。
安裝 calicoctl
Calico RR 所有配置操作都需要通過 calicoctl 工具來完成, calicoctl 允許從命令創建,讀取,更新和刪除 Calico 對象,所以我們首先需要在 Kubernetes 所有的工作節點上安裝 calicoctl 工具。
采用二進制方式安裝 calicoctl 工具。
登錄到主機,打開終端提示符,然后導航到安裝二進制文件位置,一般情況下 calicoctl 安裝到 /usr/local/bin/。
使用以下命令下載 calicoctl 二進制文件,版本號選擇自己 calico 的版本。
$ curl -O -L https://github.com/projectcalico/calicoctl/releases/download/v3.17.2/calicoctl
將文件設置為可執行文件。
$ chmod +x calicoctl
每次執行 calicoctl 之前需要設置環境變量。
$ export DATASTORE_TYPE=kubernetes
$ export KUBECONFIG=~/.kube/config
如果不希望每次執行 calicoctl 之前都需要設置環境變量,可以將環境變量信息寫到永久寫入到/etc/calico/calicoctl.cfg 文件里,calicoctl.cfg 配置文件編輯如下:
apiVersion: projectcalico.org/v3
kind: CalicoAPIConfig
metadata:
spec:
datastoreType: "kubernetes"
kubeconfig: "/root/.kube/config"
命令使用
[root@node1 ~]# calicoctl -h
Usage:
calicoctl [options] <command> [<args>...]
create Create a resource by filename or stdin.
replace Replace a resource by filename or stdin.
apply Apply a resource by filename or stdin. This creates a resource
if it does not exist, and replaces a resource if it does exists.
patch Patch a pre-exisiting resource in place.
delete Delete a resource identified by file, stdin or resource type and
name.
get Get a resource identified by file, stdin or resource type and
name.
label Add or update labels of resources.
convert Convert config files between different API versions.
ipam IP address management.
node Calico node management.
version Display the version of calicoctl.
export Export the Calico datastore objects for migration
import Import the Calico datastore objects for migration
datastore Calico datastore management.
Options:
-h --help Show this screen.
-l --log-level=<level> Set the log level (one of panic, fatal, error,
warn, info, debug) [default: panic]
Description:
The calicoctl command line tool is used to manage Calico network and security
policy, to view and manage endpoint configuration, and to manage a Calico
node instance.
See 'calicoctl <command> --help' to read about a specific subcommand.
關閉 Full-mesh 模式
Calico 默認是 Full-mesh 全互聯模式,Calico 集群中的的節點之間都會建立連接,進行路由交換。但是隨着集群規模的擴大,mesh 模式將形成一個巨大服務網格,連接數成倍增加。這時就需要使用 Route Reflector(路由器反射)模式解決這個問題。確定一個或多個 Calico 節點充當路由反射器,讓其他節點從這個 RR 節點獲取路由信息。
關閉 node-to-node BGP 網絡,具體操作步驟如下:
添加 default BGP 配置,調整 nodeToNodeMeshEnabled 和 asNumber:
[root@node1 calico]# cat bgpconf.yaml
apiVersion: projectcalico.org/v3
kind: BGPConfiguration
metadata:
name: default
spec:
logSeverityScreen: Info
nodeToNodeMeshEnabled: false
asNumber: 64512
直接應用一下,應用之后會馬上禁用 Full-mesh,
[root@node1 calico]# calicoctl apply -f bgpconf.yaml
Successfully applied 1 'BGPConfiguration' resource(s)
查看 bgp 網絡配置情況,false 為關閉
[root@node1 calico]# calicoctl get bgpconfig
NAME LOGSEVERITY MESHENABLED ASNUMBER
default Info false 64512
修改工作節點的 calico 配置
通過 calicoctl get nodes --output=wide 可以獲取各節點的 ASN 號,
[root@node1 calico]# calicoctl get nodes --output=wide
NAME ASN IPV4 IPV6
node1 (64512) 172.20.0.11/24
node2 (64512) 172.20.0.12/24
node3 (64512) 172.20.0.13/24
node4 (64512) 173.20.0.11/24
node5 (64512) 173.20.0.12/24
node6 (64512) 173.20.0.13/24
可以看到獲取的 ASN 號都是“(64512)”,這是因為如果不給每個節點指定 ASN 號,默認都是 64512。我們可以按照拓撲圖配置各個節點的 ASN 號,不同 leaf 交換機下的節點,ASN 號不一樣,每個 leaf 交換機下的工作節點都是一個獨立自治系統。
通過如下命令,獲取工作節點的 calico 配置信息:
$ calicoctl get node node1 -o yaml > node1.yaml
每一個工作節點的 calico 配置信息都需要獲取一下,輸出為 yaml 文件,“node1”為 calico 節點的名稱。
按照如下格式進行修改:
[root@node1 calico]# cat node1.yaml
apiVersion: projectcalico.org/v3
kind: Node
metadata:
annotations:
projectcalico.org/kube-labels: '{"beta.kubernetes.io/arch":"amd64","beta.kubernetes.io/os":"linux","kubernetes.io/arch":"amd64","kubernetes.io/hostname":"node1","kubernetes.io/os":"linux","node-role.kubernetes.io/master":"","node-role.kubernetes.io/worker":"","rr-group":"rr1","rr-id":"rr1"}'
creationTimestamp: null
labels:
beta.kubernetes.io/arch: amd64
beta.kubernetes.io/os: linux
kubernetes.io/arch: amd64
kubernetes.io/hostname: node1
kubernetes.io/os: linux
node-role.kubernetes.io/master: ""
node-role.kubernetes.io/worker: ""
name: node1
spec:
bgp:
asNumber: 64512 ## asNumber根據自己需要進行修改
ipv4Address: 172.20.0.11/24
routeReflectorClusterID: 172.20.0.11 ## routeReflectorClusterID一般改成自己節點的IP地址
orchRefs:
- nodeName: node1
orchestrator: k8s
status:
podCIDRs:
- ""
- 10.233.64.0/24
將所有節點的 Calico 配置信息全部修改之后,通過 calicoctl get nodes -o wide 命令獲取到的節點信息如下:
[root@node1 calico]# calicoctl get nodes -o wide
NAME ASN IPV4 IPV6
node1 64512 172.20.0.11/24
node2 64512 172.20.0.12/24
node3 64512 172.20.0.13/24
node4 64513 173.20.0.11/24
node5 64513 173.20.0.12/24
node6 64513 173.20.0.13/24
上面可以可以看到所有的 ASN 好都已變為手動指定的,不在是全局默認的。
為 node 節點進行分組(添加 label)
為方便讓 BGPPeer 輕松選擇節點,在 Kubernetes 集群中,我們需要將所有節點通過打 label 的方式進行分組,這里,我們將 label 標簽分為下面幾種:
rr-group 這里定義為節點所屬的 Calico RR 組,主要有 rr1 和 rr2 兩種,為不同 leaf 交換機下的 Calico RR
rr-id 這里定義為所屬 Calico RR 的 ID,節點添加了該標簽說明該節點作為了路由反射器,主要有 rr1 和 rr2 兩種,為不同 leaf 交換機下的 Calico RR

通過以下命令為每個節點添加 label,
$ kubectl label nodes node1 rr-group=rr1
$ kubectl label nodes node1 rr-id=rr1
查看最終設置情況,
[root@node1 calico]# kubectl get nodes --show-labels
NAME STATUS ROLES AGE VERSION LABELS
node1 Ready master,worker 31d v1.17.9 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node1,kubernetes.io/os=linux,node-role.kubernetes.io/master=,node-role.kubernetes.io/worker=,rr-group=rr1,rr-id=rr1
node2 Ready master,worker 31d v1.17.9 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node2,kubernetes.io/os=linux,node-role.kubernetes.io/master=,node-role.kubernetes.io/worker=,rr-group=rr1,rr-id=rr1
node3 Ready master,worker 31d v1.17.9 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node3,kubernetes.io/os=linux,node-role.kubernetes.io/master=,node-role.kubernetes.io/worker=,rr-group=rr1
node4 Ready worker 16d v1.17.9 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node4,kubernetes.io/os=linux,node-role.kubernetes.io/worker=,rr-group=rr2,rr-id=rr2
node5 Ready worker 16d v1.17.9 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node5,kubernetes.io/os=linux,node-role.kubernetes.io/worker=,rr-group=rr2,rr-id=rr2
node6 Ready worker 16d v1.17.9 beta.kubernetes.io/arch=amd64,beta.kubernetes.io/os=linux,kubernetes.io/arch=amd64,kubernetes.io/hostname=node5,kubernetes.io/os=linux,node-role.kubernetes.io/worker=,rr-group=rr2,rr-id=rr2
配置 BGPPeer
在配置 BGPPeer 之前,我們可以先查看一下各個 node BGP 的節點狀態,因為已經禁用了 Full-mesh,並且現在還沒有配置 BGPPeer,所以所有節點里的信息都是空的。
[root@node3 ~]# calicoctl node status
Calico process is running.
IPv4 BGP status
No IPv4 peers found.
IPv6 BGP status
No IPv6 peers found.
根據環境拓撲,node1 和 node2 作為 Calico RR,需要和 leaf01 交換機建立 BGP 連接;node4 和 node5 作為 Calico RR 需要和 leaf02 交換機建立 BGP 連接;node1、node2 和 node3 需要和 RR1 建立 BGP 連接;node4、node5 和 node6 需要和 RR2 建立 BGP 連接。按照下面步驟依次配置:
- RR1 和 leaf01 建立 BGP 連接
編寫配置文件,取名為“rr1-to-leaf1-peer.yaml”,配置文件編輯如下:
[root@node1 calico]# cat rr1-to-leaf1-peer.yaml
apiVersion: projectcalico.org/v3
kind: BGPPeer
metadata:
name: rr1-to-leaf1-peer ## 給BGPPeer取一個名稱,方便識別
spec:
nodeSelector: rr-id == 'rr1' ## 通過節點選擇器添加有rr-id == 'rr1'標簽的節點
peerIP: 172.20.0.254 ## leaf01交換機的地址
asNumber: 65009 ## leaf01交換機的AS號
應用該配置,
[root@node1 calico]# calicoctl apply -f rr1-to-leaf1-peer.yaml
Successfully applied 1 'BGPPeer' resource(s)
- RR1 和自己所屬的節點建立 BGP 連接
RR1 所屬的節點主要有 node1、node2 和 node3,也就是打了 rr-group=rr1 標簽的節點,配置文件編寫如下:
[root@node1 calico]# cat rr1-to-node-peer.yaml
apiVersion: projectcalico.org/v3
kind: BGPPeer
metadata:
name: rr1-to-node-peer ## 給BGPPeer取一個名稱,方便識別
spec:
nodeSelector: rr-group == 'rr1' ## 通過節點選擇器添加有rr-group == ‘rr1’標簽的節點
peerSelector: rr-id == 'rr1' ## 通過peer選擇器添加有rr-id == ‘rr1’標簽的路由反射器
應用該配置,
[root@node1 calico]# calicoctl apply -f rr1-to-node-peer.yaml
Successfully applied 1 'BGPPeer' resource(s)
- 在 leaf01 交換機上操作,建立 leaf01 交換機和 RR1 的 BGP 連接,交換機配置完成后,可以查看交換機 bgp peer 的連接狀態
[leaf01]show bgp peer ipv4
BGP local router ID: 2.2.2.2
Local AS number: 65009
Total number of peers: 3 Peers in established state: 3
* - Dynamically created peer
Peer AS MsgRcvd MsgSent OutQ PrefRcv Up/Down State
100.0.0.1 65008 1696 1677 0 8 23:52:28 Established
172.20.0.11 64512 1648 1506 0 4 23:51:50 Established
172.20.0.12 64512 1647 1659 0 4 23:51:44 Established
上面 172.20.0.11 和 172.20.0.12 是 node1 和 node2 節點,也就是 RR1。狀態顯示為“Established“說明 BGP 連結已建立。
- RR2 和 leaf02 建立 BGP 連接
編寫配置文件,取名為“rr2-to-leaf2-peer.yaml”,配置文件編輯如下:
[root@node1 calico]# cat rr2-to-leaf2-peer.yaml
apiVersion: projectcalico.org/v3
kind: BGPPeer
metadata:
name: rr2-to-leaf2-peer ## 給BGPPeer取一個名稱,方便識別
spec:
nodeSelector: rr-id == 'rr2' ## 通過節點選擇器添加有rr-id == 'rr2'標簽的節點
peerIP: 173.20.0.254 ## leaf02交換機的地址
asNumber: 65010 ## leaf02交換機的AS號
應用該配置,
[root@node1 calico]# calicoctl apply -f rr2-to-leaf2-peer.yaml
Successfully applied 1 'BGPPeer' resource(s)
- RR2 和自己所屬的節點建立 BGP 連接
RR2 所屬的節點主要有 node4、node5 和 node6,也就是打了 rr-group=rr2 標簽的節點,配置文件編寫如下:
[root@node1 calico]# cat rr2-to-node-peer.yaml
apiVersion: projectcalico.org/v3
kind: BGPPeer
metadata:
name: rr2-to-node-peer ## 給BGPPeer取一個名稱,方便識別
spec:
nodeSelector: rr-group == 'rr2' ## 通過節點選擇器添加有rr-group == ‘rr2’標簽的節點
peerSelector: rr-id == 'rr2' ## 通過peer選擇器添加有rr-id == ‘rr2’標簽的路由反射器
應用該配置,
[root@node1 calico]# calicoctl apply -f rr2-to-node-peer.yaml
Successfully applied 1 'BGPPeer' resource(s)
- 在 leaf02 交換機上操作,建立 leaf02 交換機和 RR2 的 BGP 連接
交換機配置完成后,可以查看交換機 bgp peer 的連接狀態
<leaf02>sys
System View: return to User View with Ctrl+Z.
[leaf02]show bgp peer ipv4
BGP local router ID: 3.3.3.3
Local AS number: 65010
Total number of peers: 3 Peers in established state: 3
* - Dynamically created peer
Peer AS MsgRcvd MsgSent OutQ PrefRcv Up/Down State
100.0.0.5 65008 1561 1686 0 11 24:01:03 Established
173.20.0.11 64513 1655 1650 0 2 23:59:44 Established
173.20.0.12 64513 1661 1883 0 2 23:59:56 Established
上面 173.20.0.11 和 173.20.0.12 是 node4 和 node5 節點,也就是 RR2。狀態顯示為“Established“說明 BGP 連結已建立。
最后,我們可以通過 calicoctl get bgppeer 命令來查看所有的 BGPPeer 配置條目,
[root@node1 calico]# calicoctl get bgppeer
NAME PEERIP NODE ASN
rr1-to-leaf1-peer 172.20.0.254 rr-id == 'rr1' 65009
rr1-to-node-peer rr-group == 'rr1' 0
rr2-to-leaf2-peer 173.20.0.254 rr-id == 'rr2' 65010
rr2-to-node-peer rr-group == 'rr2' 0
如果想刪除某個 BGPPeer 條目,可以通過下面的命令
$ calicoctl delete bgppeer rr2-to-node-peer
工作節點配置驗證
至此,BGPPeer 配置已完成,可以在各個節點里再次查看 BGPPeer 狀態信息
在 node1 節點操作
[root@node1 calico]# calicoctl node status
Calico process is running.
IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS | PEER TYPE | STATE | SINCE | INFO |
+--------------+---------------+-------+------------+-------------+
| 172.20.0.12 | node specific | up | 2021-02-16 | Established |
| 172.20.0.13 | node specific | up | 2021-02-16 | Established |
| 172.20.0.254 | node specific | up | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+
IPv6 BGP status
No IPv6 peers found.
可以看到該節點已經和 leaf01 交換機、node2 和 node3 節點建立了 BGP 連接。
在 node2 節點操作
[root@node2 ~]# calicoctl node status
Calico process is running.
IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS | PEER TYPE | STATE | SINCE | INFO |
+--------------+---------------+-------+------------+-------------+
| 172.20.0.11 | node specific | up | 2021-02-16 | Established |
| 172.20.0.13 | node specific | up | 2021-02-16 | Established |
| 172.20.0.254 | node specific | up | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+
IPv6 BGP status
No IPv6 peers found.
可以看到該節點已經和 leaf01 交換機、node1 和 node3 節點建立了 BGP 連接。
在 node3 節點操作
[root@node3 ~]# calicoctl node status
Calico process is running.
IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS | PEER TYPE | STATE | SINCE | INFO |
+--------------+---------------+-------+------------+-------------+
| 172.20.0.11 | node specific | up | 2021-02-16 | Established |
| 172.20.0.12 | node specific | up | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+
IPv6 BGP status
No IPv6 peers found.
可以看到該節點已經和 node1 和 node2 節點建立了 BGP 連接,因為該節點不作為路由反射器節點,所以並為與 leaf01 交換機建立 bgp 連接。
在 node4 節點操作
[root@node4 ~]# calicoctl node status
Calico process is running.
IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS | PEER TYPE | STATE | SINCE | INFO |
+--------------+---------------+-------+------------+-------------+
| 173.20.0.12 | node specific | up | 2021-02-16 | Established |
| 173.20.0.13 | node specific | up | 2021-02-16 | Established |
| 173.20.0.254 | node specific | up | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+
IPv6 BGP status
No IPv6 peers found.
可以看到該節點已經和 leaf02 交換機、node5 和 node6 節點建立了 BGP 連接。
在 node5 節點操作
[root@node5 ~]# calicoctl node status
Calico process is running.
IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS | PEER TYPE | STATE | SINCE | INFO |
+--------------+---------------+-------+------------+-------------+
| 173.20.0.11 | node specific | up | 2021-02-16 | Established |
| 173.20.0.13 | node specific | up | 2021-02-16 | Established |
| 173.20.0.254 | node specific | up | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+
IPv6 BGP status
No IPv6 peers found.
可以看到該節點已經和 leaf02 交換機、node4 和 node6 節點建立了 BGP 連接。
在 node6 節點操作
[root@node6 ~]# calicoctl node status
Calico process is running.
IPv4 BGP status
+--------------+---------------+-------+------------+-------------+
| PEER ADDRESS | PEER TYPE | STATE | SINCE | INFO |
+--------------+---------------+-------+------------+-------------+
| 173.20.0.11 | node specific | up | 2021-02-16 | Established |
| 173.20.0.12 | node specific | up | 2021-02-16 | Established |
+--------------+---------------+-------+------------+-------------+
IPv6 BGP status
No IPv6 peers found.
可以看到該節點已經和 node4 和 node5 節點建立了 BGP 連接,因為該節點不作為路由反射器節點,所以並為與 leaf02 交換機建立 bgp 連接。
交換機配置驗證
我們可以在所有交換機里去查看 BGP 同步的路由信息有沒有署於 pod 的路由地址
Spine 交換機操作

Leaf01 交換機操作

Leaf02 交換機操作

在上面交換機操作截圖中,10.233 開頭的地址段都是 pod 地址段的路由信息。
將 Service 地址路由同步到物理網絡
有些時候不光需要 Pod 地址可以在現網可被路由,Service 地址也會有這個需求,我們可以通過修改 bgpconfig 配置來實現 Service 地址的路由同步,
首先檢查是否具有默認的 BGP 配置
[root@node1 ~]# calicoctl get bgpconfig default
NAME LOGSEVERITY MESHENABLED ASNUMBER
default Info false 64512
默認的 BGP 配置是存在的,更新 BGP 配置
[root@node1 ~]# calicoctl patch BGPConfig default --patch \
> '{"spec": {"serviceClusterIPs": [{"cidr": "10.233.0.0/18"}]}}'
Successfully patched 1 'BGPConfiguration' resource
注意將上面 10.233.0.0./18 地址段修改為 Service 的地址段
上述配置完成之后,便可以在交換機里看到已經同步過來的 Service 地址段的路由信息。
文檔參考鏈接
絕大多數配置都可以通過 Calico 官方文檔獲取,以下就是撰寫本文參考的主要官方文檔鏈接
- https://docs.projectcalico.org/networking/bgp
- https://docs.projectcalico.org/getting-started/clis/calicoctl/install
- https://docs.projectcalico.org/networking/advertise-service-ips#advertise-service-cluster-ip-addresses
本文由博客一文多發平台 OpenWrite 發布!
