部署Ceph集群
Ceph版本選擇
Ceph版本來源介紹
Ceph 社區最新版本是 14,而 Ceph 12 是市面用的最廣的穩定版本。
第一個 Ceph 版本是 0.1 ,要回溯到 2008 年 1 月。多年來,版本號方案一直沒變,直到 2015 年 4 月 0.94.1 ( Hammer 的第一個修正版)發布后,為了避免 0.99 (以及 0.100 或 1.00 ?),制定了新策略。
x.0.z - 開發版(給早期測試者和勇士們)
x.1.z - 候選版(用於測試集群、高手們)
x.2.z - 穩定、修正版(給用戶們)
x 將從 9 算起,它代表 Infernalis ( I 是第九個字母),這樣第九個發布周期的第一個開發版就是 9.0.0 ;后續的開發版依次是 9.0.1 、 9.0.2 等等。
版本名稱 | 版本號 | 發布時間 |
---|---|---|
Argonaut | 0.48版本(LTS) | 2012年6月3日 |
Bobtail | 0.56版本(LTS) | 2013年5月7日 |
Cuttlefish | 0.61版本 | 2013年1月1日 |
Dumpling | 0.67版本(LTS) | 2013年8月14日 |
Emperor | 0.72版本 | 2013年11月9 |
Firefly | 0.80版本(LTS) | 2014年5月 |
Giant | Giant | October 2014 - April 2015 |
Hammer | Hammer | April 2015 - November 2016 |
Infernalis | Infernalis | November 2015 - June 2016 |
Jewel | 10.2.9 | 2016年4月 |
Kraken | 11.2.1 | 2017年10月 |
Luminous | 12.2.12 | 2017年10月 |
mimic | 13.2.7 | 2018年5月 |
nautilus | 14.2.5 | 2019年2月 |
Luminous新版本特性
- Bluestore
- ceph-osd的新后端存儲BlueStore已經穩定,是新創建的OSD的默認設置。
BlueStore通過直接管理物理HDD或SSD而不使用諸如XFS的中間文件系統,來管理每個OSD存儲的數據,這提供了更大的性能和功能。 - BlueStore支持Ceph存儲的所有的完整的數據和元數據校驗。
- BlueStore內嵌支持使用zlib,snappy或LZ4進行壓縮。(Ceph還支持zstd進行RGW壓縮,但由於性能原因,不為BlueStore推薦使用zstd)
- ceph-osd的新后端存儲BlueStore已經穩定,是新創建的OSD的默認設置。
- 集群的總體可擴展性有所提高。我們已經成功測試了多達10,000個OSD的集群。
- ceph-mgr
- ceph-mgr是一個新的后台進程,這是任何Ceph部署的必須部分。雖然當ceph-mgr停止時,IO可以繼續,但是度量不會刷新,並且某些與度量相關的請求(例如,ceph df)可能會被阻止。我們建議您多部署ceph-mgr的幾個實例來實現可靠性。
- ceph-mgr守護進程daemon包括基於REST的API管理。注:API仍然是實驗性質的,目前有一些限制,但未來會成為API管理的基礎。
- ceph-mgr還包括一個Prometheus插件。
- ceph-mgr現在有一個Zabbix插件。使用zabbix_sender,它可以將集群故障事件發送到Zabbix Server主機。這樣可以方便地監視Ceph群集的狀態,並在發生故障時發送通知。
安裝前准備
- 安裝要求
-
最少三台Centos7系統虛擬機用於部署Ceph集群。硬件配置:2C4G,另外每台機器最少掛載三塊硬盤(每塊盤5G)
cephnode01 192.168.25.224 cephnode02 192.168.25.227 cephnode03 192.168.25.228
-
內網yum源服務器,硬件配置2C4G
cephyumresource01 192.168.25.224
- 環境准備(在Ceph三台機器上操作)
(1)關閉防火牆:
systemctl stop firewalld
systemctl disable firewalld
(2)關閉selinux:
sed -i 's/enforcing/disabled/' /etc/selinux/config
setenforce 0
(3)關閉NetworkManager
systemctl disable NetworkManager && systemctl stop NetworkManager
(4)添加主機名與IP對應關系:
vim /etc/hosts
192.168.25.224 cephnode01
192.168.25.227 cephnode02
192.168.25.228 cephnode03
(5)設置主機名:
hostnamectl set-hostname cephnode01
hostnamectl set-hostname cephnode02
hostnamectl set-hostname cephnode03
(6)同步網絡時間和修改時區
systemctl restart chronyd.service && systemctl enable chronyd.service
cp /usr/share/zoneinfo/Asia/Shanghai /etc/localtime
(7)設置文件描述符
echo "ulimit -SHn 102400" >> /etc/rc.local
cat >> /etc/security/limits.conf << EOF
* soft nofile 65535
* hard nofile 65535
EOF
(8)內核參數優化
cat >> /etc/sysctl.conf << EOF
kernel.pid_max = 4194303
vm.swappiness = 0
EOF
sysctl -p
(9)在cephnode01上配置免密登錄到cephnode02、cephnode03
ssh-copy-id root@cephnode02
ssh-copy-id root@cephnode03
(10)read_ahead,通過數據預讀並且記載到隨機訪問內存方式提高磁盤讀操作
echo "8192" > /sys/block/sda/queue/read_ahead_kb
(11) I/O Scheduler,SSD要用noop,SATA/SAS使用deadline
echo "deadline" >/sys/block/sd[x]/queue/scheduler
echo "noop" >/sys/block/sd[x]/queue/scheduler
安裝內網yum源
1、安裝httpd、createrepo和epel源
yum install httpd createrepo epel-release -y
2、編輯yum源文件
[root@cephyumresource01 ~]# cat << EOF | tee /etc/yum.repos.d/ceph.repo
[Ceph]
name=Ceph packages for $basearch
baseurl=http://mirrors.163.com/ceph/rpm-nautilus/el7/\$basearch
enabled=1
gpgcheck=1
type=rpm-md
gpgkey=https://download.ceph.com/keys/release.asc
priority=1
[Ceph-noarch]
name=Ceph noarch packages
baseurl=http://mirrors.163.com/ceph/rpm-nautilus/el7/noarch
enabled=1
gpgcheck=1
type=rpm-md
gpgkey=https://download.ceph.com/keys/release.asc
priority=1
[ceph-source]
name=Ceph source packages
baseurl=http://mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS
enabled=1
gpgcheck=1
type=rpm-md
gpgkey=https://download.ceph.com/keys/release.asc
EOF
3、下載Ceph安裝包
yum --downloadonly --downloaddir=/var/www/html/ceph/rpm-nautilus/el7/x86_64/ install ceph ceph-radosgw
4、下載Ceph依賴文件
wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/ceph-14.2.4-0.el7.src.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/ceph-deploy-2.0.1-0.src.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-deploy-2.0.1-0.noarch.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-grafana-dashboards-14.2.4-0.el7.noarch.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-mgr-dashboard-14.2.4-0.el7.noarch.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-mgr-diskprediction-cloud-14.2.4-0.el7.noarch.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-mgr-diskprediction-local-14.2.4-0.el7.noarch.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-mgr-rook-14.2.4-0.el7.noarch.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-mgr-ssh-14.2.4-0.el7.noarch.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/ceph-release-1-1.el7.noarch.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/ceph-release-1-1.el7.src.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/ceph-medic-1.0.4-16.g60cf7e9.el7.src.rpm
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/repodata/repomd.xml
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/repodata/repomd.xml
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/repodata/a4bf0ee38cd4e64fae2d2c493e5b5eeeab6cf758beb7af4eec0bc4046b595faf-filelists.sqlite
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/repodata/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/repodata/a4bf0ee38cd4e64fae2d2c493e5b5eeeab6cf758beb7af4eec0bc4046b595faf-filelists.sqlite.bz2
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/repodata/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/repodata/183278bb826f5b8853656a306258643384a1547c497dd8b601ed6af73907bb22-other.sqlite.bz2
wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/repodata/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/repodata/52bf459e39c76b2ea2cff2c5340ac1d7b5e17a105270f5f01b454d5a058adbd2-filelists.sqlite.bz2
wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/repodata/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/repodata/4f3141aec1132a9187ff5d1b4a017685e2f83a761880884d451a288fcedb154e-primary.sqlite.bz2
wget -P /var/www/html/ceph/rpm-nautilus/el7/srpms/repodata/ mirrors.163.com/ceph/rpm-nautilus/el7/SRPMS/repodata/0c554884aa5600b1311cd8f616aa40d036c1dfc0922e36bcce7fd84e297c5357-other.sqlite.bz2
wget -P /var/www/html/ceph/rpm-nautilus/el7/noarch/repodata/ mirrors.163.com/ceph/rpm-nautilus/el7/noarch/repodata/597468b64cddfc386937869f88c2930c8e5fda3dd54977c052bab068d7438fcb-primary.sqlite.bz2
5、更新yum源
createrepo --update /var/www/html/ceph/rpm-nautilus
安裝Ceph集群
1、編輯內網yum源,將yum源同步到其它節點並提前做好yum makecache
# vim /etc/yum.repos.d/ceph.repo
[Ceph]
name=Ceph packages for $basearch
baseurl=http://192.168.25.224/ceph/rpm-nautilus/el7/$basearch
gpgcheck=0
priority=1
[Ceph-noarch]
name=Ceph noarch packages
baseurl=http://192.168.25.224/ceph/rpm-nautilus/el7/noarch
gpgcheck=0
priority=1
[ceph-source]
name=Ceph source packages
baseurl=http://192.168.25.224/ceph/rpm-nautilus/el7/srpms
gpgcheck=0
priority=1
2、安裝ceph-deploy(確認ceph-deploy版本是否為2.0.1)
# yum list|grep ceph-deploy
# yum install -y ceph-deploy
3、創建一個my-cluster目錄,所有命令在此目錄下進行(文件位置和名字可以隨意)
# mkdir /my-cluster
# cd /my-cluster
4、創建一個Ceph集群
# ceph-deploy new cephnode01 cephnode02 cephnode03
執行命令報錯:ImportError: No module named pkg_resources
這個問題通常是由於升級到python2.7后執行pip產生的,解決方案是重新在python2.7環境中安裝pip,步驟如下
1.安裝distribute
wget https://pypi.python.org/packages/source/d/distribute/distribute-0.7.3.zip --no-check-certificate
unzip distribute-0.7.3.zip
cd distribute-0.7.3
python setup.py install2.安裝setuptool
https://pypi.python.org/pypi/setuptools 下載最新版wget --no-check-certificate https://pypi.python.org/packages/source/s/setuptools/setuptools-12.0.3.tar.gz#md5=f07e4b0f4c1c9368fcd980d888b29a65
tar -zxvf setuptools-12.0.3.tar.gz
cd setuptools-12.0.3
python setup.py install3.安裝pip
easy_install pip4.如果安裝pip過程中報ImportError: No module named extern異常
https://pypi.python.org/pypi/extern 下載最新extern安裝后再次嘗試即可
解決問題之后重新執行:ceph-deploy new cephnode01 cephnode02 cephnode03
5、安裝Ceph軟件(每個節點執行)
# yum -y install epel-release && yum install -y ceph
6、生成monitor檢測集群所使用的的秘鑰
# ceph-deploy mon create-initial
7、安裝Ceph CLI,方便執行一些管理命令
# ceph-deploy admin cephnode01 cephnode02 cephnode03
8、配置mgr,用於管理集群
# ceph-deploy mgr create cephnode01 cephnode02 cephnode03
9、部署rgw
# yum install -y ceph-radosgw
# ceph-deploy rgw create cephnode01
10、部署MDS(CephFS)
# ceph-deploy mds create cephnode01 cephnode02 cephnode03
11、添加osd
ceph-deploy osd create --data /dev/sdb cephnode01
ceph-deploy osd create --data /dev/sdc cephnode01
ceph-deploy osd create --data /dev/sdd cephnode01
ceph-deploy osd create --data /dev/sdb cephnode02
ceph-deploy osd create --data /dev/sdc cephnode02
ceph-deploy osd create --data /dev/sdd cephnode02
ceph-deploy osd create --data /dev/sdb cephnode03
ceph-deploy osd create --data /dev/sdc cephnode03
ceph-deploy osd create --data /dev/sdd cephnode03
ceph.conf
1、該配置文件采用init文件語法,#和;為注釋,ceph集群在啟動的時候會按照順序加載所有的conf配置文件。 配置文件分為以下幾大塊配置。
global:全局配置。
osd:osd專用配置,可以使用osd.N,來表示某一個OSD專用配置,N為osd的編號,如0、2、1等。
mon:mon專用配置,也可以使用mon.A來為某一個monitor節點做專用配置,其中A為該節點的名稱,ceph-monitor-2、ceph-monitor-1等。使用命令 ceph mon dump可以獲取節點的名稱。
client:客戶端專用配置。
2、配置文件可以從多個地方進行順序加載,如果沖突將使用最新加載的配置,其加載順序為。
$CEPH_CONF環境變量
-c 指定的位置
/etc/ceph/ceph.conf
~/.ceph/ceph.conf
./ceph.conf
3、配置文件還可以使用一些元變量應用到配置文件,如。
$cluster:當前集群名。
$type:當前服務類型。
$id:進程的標識符。
$host:守護進程所在的主機名。
$name:值為$type.$id。
4、ceph.conf詳細參數
[global]#全局設置
fsid = xxxxxxxxxxxxxxx #集群標識ID
mon host = 10.0.1.1,10.0.1.2,10.0.1.3 #monitor IP 地址
auth cluster required = cephx #集群認證
auth service required = cephx #服務認證
auth client required = cephx #客戶端認證
osd pool default size = 3 #最小副本數 默認是3
osd pool default min size = 1 #PG 處於 degraded 狀態不影響其 IO 能力,min_size是一個PG能接受IO的最小副本數
public network = 10.0.1.0/24 #公共網絡(monitorIP段)
cluster network = 10.0.2.0/24 #集群網絡
max open files = 131072 #默認0#如果設置了該選項,Ceph會設置系統的max open fds
mon initial members = node1, node2, node3 #初始monitor (由創建monitor命令而定)
##############################################################
[mon]
mon data = /var/lib/ceph/mon/ceph-$id
mon clock drift allowed = 1 #默認值0.05#monitor間的clock drift
mon osd min down reporters = 13 #默認值1#向monitor報告down的最小OSD數
mon osd down out interval = 600 #默認值300 #標記一個OSD狀態為down和out之前ceph等待的秒數
##############################################################
[osd]
osd data = /var/lib/ceph/osd/ceph-$id
osd mkfs type = xfs #格式化系統類型
osd max write size = 512 #默認值90 #OSD一次可寫入的最大值(MB)
osd client message size cap = 2147483648 #默認值100 #客戶端允許在內存中的最大數據(bytes)
osd deep scrub stride = 131072 #默認值524288 #在Deep Scrub時候允許讀取的字節數(bytes)
osd op threads = 16 #默認值2 #並發文件系統操作數
osd disk threads = 4 #默認值1 #OSD密集型操作例如恢復和Scrubbing時的線程
osd map cache size = 1024 #默認值500 #保留OSD Map的緩存(MB)
osd map cache bl size = 128 #默認值50 #OSD進程在內存中的OSD Map緩存(MB)
osd mount options xfs = "rw,noexec,nodev,noatime,nodiratime,nobarrier" #默認值rw,noatime,inode64 #Ceph OSD xfs Mount選項
osd recovery op priority = 2 #默認值10 #恢復操作優先級,取值1-63,值越高占用資源越高
osd recovery max active = 10 #默認值15 #同一時間內活躍的恢復請求數
osd max backfills = 4 #默認值10 #一個OSD允許的最大backfills數
osd min pg log entries = 30000 #默認值3000 #修建PGLog是保留的最大PGLog數
osd max pg log entries = 100000 #默認值10000 #修建PGLog是保留的最大PGLog數
osd mon heartbeat interval = 40 #默認值30 #OSD ping一個monitor的時間間隔(默認30s)
ms dispatch throttle bytes = 1048576000 #默認值 104857600 #等待派遣的最大消息數
objecter inflight ops = 819200 #默認值1024 #客戶端流控,允許的最大未發送io請求數,超過閥值會堵塞應用io,為0表示不受限
osd op log threshold = 50 #默認值5 #一次顯示多少操作的log
osd crush chooseleaf type = 0 #默認值為1 #CRUSH規則用到chooseleaf時的bucket的類型
##############################################################
[client]
rbd cache = true #默認值 true #RBD緩存
rbd cache size = 335544320 #默認值33554432 #RBD緩存大小(bytes)
rbd cache max dirty = 134217728 #默認值25165824 #緩存為write-back時允許的最大dirty字節數(bytes),如果為0,使用write-through
rbd cache max dirty age = 30 #默認值1 #在被刷新到存儲盤前dirty數據存在緩存的時間(seconds)
rbd cache writethrough until flush = false #默認值true #該選項是為了兼容linux-2.6.32之前的virtio驅動,避免因為不發送flush請求,數據不回寫
#設置該參數后,librbd會以writethrough的方式執行io,直到收到第一個flush請求,才切換為writeback方式。
rbd cache max dirty object = 2 #默認值0 #最大的Object對象數,默認為0,表示通過rbd cache size計算得到,librbd默認以4MB為單位對磁盤Image進行邏輯切分
#每個chunk對象抽象為一個Object;librbd中以Object為單位來管理緩存,增大該值可以提升性能
rbd cache target dirty = 235544320 #默認值16777216 #開始執行回寫過程的臟數據大小,不能超過 rbd_cache_max_dirty