部署錯誤處理


參考地址:https://www.icode9.com/content-4-982994.html

清理內存
free -h
echo 3 >/proc/sys/vm/drop_caches
#################################################################################
准備工作:
在配置install.config 之前,我們可以做以下操作可以降低機器內存的使用:

  1. 修改es的jvm的堆內存值

    在中控機上修改腳本:/data/install/bin/install_es.sh
    JVM_MEM=$(awk '/MemAvailable/{print int($2/1024/1024/2)}' /proc/meminfo) 給定一個較小值
    如:JVM_MEM=2 建議

  2. 修改saas模板的線程數

在中控機上修改模板文件:/data/src/paas_agent/paas_agent/etc/templates/docker/uwsgi.ini
將"workers = 16" 改成"workers = 8"

  1. 永久修改saas超時時間

在中控機上修改模板文件:
/data/src/open_paas/support-files/templates/paas#conf#settings_production.py.tp
任意位置添加: EVENT_STATE_EXPIRE_SECONDS = 3600
/data/src/paas_agent/support-files/templates/#etc#paas_agent_config.yaml.tpl
EXECUTE_TIME_LIMIT: 300 改為 EXECUTE_TIME_LIMIT: 30000(考慮到咱們機器慢,可以加大這個時間)
配置install.config

  1. 安裝基礎平台

install.config文件直接拷貝官網文檔上”1.5 生成並配置 install.config”模板

10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)

  1. 安裝監控平台

deply_iplist地方的填寫的ip如下:

deply_iplist:10.0.0.3,10.0.0.2,10.0.0.1
注:請按照上面ip的填寫順序填寫。

配置文件如下:

10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)
[bkmonitorv3]
10.0.0.3 kafka(config),monitorv3(transfer)
10.0.0.2 influxdb(bkmonitorv3),monitorv3(influxdb-proxy),monitorv3(grafana)
10.0.0.1 es7,monitorv3(monitor)

  1. 安裝日志平台

deply_iplist填寫的ip如下:

deply_iplist: 10.0.0.2

  1. 安裝故障自愈

deply_iplist填寫的ip如下:

deply_iplist: 10.0.0.2

  1. 最終生成install.config如下:

10.0.0.1 iam,ssm,usermgr,gse,license,redis,consul,mysql
10.0.0.2 nginx,consul,mongodb,rabbitmq,appo
10.0.0.3 paas,cmdb,job,zk(config),appt,consul,nodeman(nodeman)
[bkmonitorv3]
10.0.0.3 kafka(config),monitorv3(transfer)
10.0.0.2 influxdb(bkmonitorv3),monitorv3(influxdb-proxy),monitorv3(grafana)
10.0.0.1 es7,monitorv3(monitor)
[bklog]
10.0.0.2 log(api),log(grafana)
[fta]
10.0.0.2 fta,beanstalk

####################################################
故障解決方法
1.【社區版 6.0】 監控平台數據未上報排查思路
https://bk.tencent.com/s-mart/community/question/1672
2.glibc和glibc-common版本沖突解決
https://blog.csdn.net/qq_38695182/article/details/85295105
3.nginx配置訪問密碼,輸入用戶名和密碼才能訪問
https://feiutech.blog.csdn.net/article/details/82817874?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-3.control
4.配置消息通知:郵件
https://bk.tencent.com/docs/document/6.0/148/8700
5.標准運維遠程加載 https://gitee.com/rustylee/doc/blob/master/%E6%A0%87%E5%87%86%E8%BF%90%E7%BB%B4/%E6%A0%87%E5%87%86%E6%8F%92%E4%BB%B6%E8%BF%9C%E7%A8%8B%E5%8A%A0%E8%BD%BD.md

  1. 郵箱配置 https://gitee.com/rustylee/doc/blob/master/PaaS%E5%B9%B3%E5%8F%B0/%E9%85%8D%E7%BD%AE%E9%82%AE%E7%AE%B1%E9%80%9A%E7%9F%A5.md
    ###########################################################################
    1 系統limits配置不當,無法正常安裝SaaS應用
    安裝官方文檔正常配置limits即可
    cat >> /etc/security/limits.conf << EOF
    root soft nofile 102400
    root hard nofile 102400
    EOF
    2 DNS配置文件首行非nameserver 127.0.0.1,導致無法正常解析
    6.0不會自動在系統/etc/resolv.conf中添加consul服務器地址,需要手動添加
    sed -i '1inameserver 127.0.0.1' /etc/resolv.conf
    3 安裝paas多處報錯
    檢查3台主機名是否相同,若相同需要修改
    4 CLUSTER_IP_LIST(-j) 不能為空,部署paas失敗,提示Exited woth error code 1
    檢查每台機器 cat /etc/blueking/env/local.env 配置是否有對應的ip
    檢查 cat /data/install/bin/01-generate/dbadmin.env該文件中是否有 BK_CONSUL_KEYSTR_32BYTES 值
    若是沒有dbadmin.env這個文件需要重新生成,請參考以下步驟

chattr -i ~/.tag/
rm -rf ~/.tag/
rm -rf /data/install/bin/01-generate/
rm -rf /data/install/bin/02-dynamic/
rm -rf /data/install/bin/04-final/*
echo "" > /data/install/.bk_install.step
./bk_install common
機器上執行命令看是否能獲取到正確的ip

ip route get "10.0.0.1" | awk '{print $NF}'
若是無法獲取到,請自行修改 /data/install/bin/update_bk_env.sh 腳本第61行,只要能獲取到ip即可
若是以上均正常,請查看
pcmd -m all "echo \$BK_CONSUL_KEYSTR_32BYTES"
若是為空,說明 ./bk_install common 沒生成dbadmin相關配置。需要重新生成
5 安裝paas的時候報錯,Stderr: Command “python setup.py egg_info” failed with error code 1 in /tmp/pip-build-1vs9US/virtualenvwrapper/ Python工程安裝virtualenvwrapper=4.8.4 報錯
source /data/install/utils.fc
ssh $BK_PAAS_IP
/opt/py27_e/bin/pip install --no-index --find-links=/data/install/pip stevedore==1.32.0
/opt/py27_e/bin/pip install --no-index --find-links=/data/install/pip virtualenvwrapper==4.8.4"
6.部署job報錯
all_iam_api fail,method: http_post path: /api/v1/model/systems/bk_job/actions error: bad request: action id [accessbusiness] related resource type [biz] not exists
execute operation [ upsert action] bad request : action id [ access business ] related resource type [ biz ] not exists fail,error message : id = access busmigrate [ / data / src / job / support-files / bkiam / 0001 bk job 20200808-1000 iam ison ] failIta / src / job / Support-files / bkiam / 0001 bk job _ 20200808-1000_iam.json import err, Abort.
解決思路
(1)、檢查iam服務是否正常
systemctl status bk-iam.service
若是iam服務一次請查看日志處理,啟動iam服務
若是iam正常,請檢查是否可以正確獲取業務id

/data/install/health_check/check_cmdb_blueking_id

若是獲取失敗請初始化下cmdb

./bkcli stop cmdb
./bkcli start cmdb
pcmd -m cmdb "/data/install/bin/bks.sh cmdb" //服務均running則可以初始化cmdb
./bkcli initdata cmdb //若是initdata 失敗請查看cmdb日志
7.部署fta報錯 登錄到fta機器執行

/opt/py27/bin/pip install --no-index --find-links=/data/install/pip stevedore==1.32.0
/opt/py27/bin/pip install --no-index --find-links=/data/install/pip virtualenvwrapper==4.8.4
8.安裝pass平台報錯CLUSTER_IP_LIST(-j)不能為空
檢查每台機器 cat /etc/blueking/env/local.env 配置是否有對應的ip
檢查 cat /data/install/bin/01-generate/dbadmin.env該文件中是否有 BK_CONSUL_KEYSTR_32BYTES 值
若是沒有dbadmin.env這個文件需要重新生成,請參考以下步驟
chattr -i ~/.tag/
rm -rf ~/.tag/
rm -rf /data/install/bin/01-generate/
rm -rf /data/install/bin/02-dynamic/
rm -rf /data/install/bin/04-final/*
echo "" > /data/install/.bk_install.step
./bk_install common

 

8.部署job報錯找不到bkid
檢查iam服務是否正常
systemctl status bk-iam.service
若是iam服務一次請查看日志處理,啟動iam服務
若是iam正常,請檢查是否可以正確獲取藍鯨業務id
/data/install/health_check/check_cmdb_blueking_id
./bkcli stop cmdb
./bkcli start cmdb
pcmd -m cmdb "/data/install/bin/bks.sh cmdb" //服務均running則可以初始化cmdb
./bkcli initdata cmdb //若是initdata 失敗./bkcli restart bkiam
9.部署 bknodeman(節點管理)超時
(1)、更改paas所在的主機
/data/bkce/open_paas/paas/conf/settings_production.py
EVENT_STATE_EXPIRE_SECONDS = 3600
HISTORY_EVENT_STATE_EXPIRE_SECONDS = 9000
(2)、更改appo所在的主機
/data/bkce/paas_agent/paas_agent/etc/paas_agent_config.yaml
EXECUTE_TIME_LIMIT: 3000
./bkcli restart appo
./bkcli restart paas

 

10.請求系統'metadata_v3'錯誤,返回錯誤碼: 400,返回消息: 400: {"results":[{"error":"get cluster failed"}]},請求URL: /get_ts_data/
cd /data/install/
./bkcli start bkmonitorv3 influxdb-proxy
或者

systemctl start bk-influxdb-proxy.service
11.安裝job報錯
/etc/host手動添加地址

 

12.安裝組件時出現“SaaS App應用當前狀態:正在上線,不能進行部署操作!”
域名+/admin/app/app/ 選擇相應saas進去修改應用開發狀態為(測試中),可在終端重新部署。
13.藍鯨監控主機無上報數據
(1). 手動啟動basereport、processbeat進程
/usr/local/gse/plugins/bin/start.sh basereport -c /usr/local/gse/plugins/etc/basereport.conf
/usr/local/gse/plugins/bin/start.sh processbeat -c /usr/local/gse/plugins/etc/processbeat.conf
(2). 檢查monitor狀態是否有異常
./bkcli check monitorv3
./bkcli status monitor3
(3). 重啟
./bkcli restart monitor3

 

14../bk_install common 報錯
檢查yum源及epel源,更換為騰訊
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.cloud.tencent.com/repo/centos7_base.repo
wget -O /etc/yum.repos.d/epel.repo http://mirrors.cloud.tencent.com/repo/epel-7.repo
15.安裝到bk_install paas時consul 報錯
(1)、檢查selinux 防火牆等是否關閉,或者策略是否開放
(2)、檢查consul 服務是否啟動
./bkcli status consul
(3)、consul 未組成集群
install.config 中的ip必須有唯一對應的主機名
時間需要同步
consul members 查看集群狀態
(4)、可以查看consul日志

/var/log/consul/consul.log
15.安裝itsm報錯
/data/bkce/logs/paasagent/agent.log appo機器看下部署日志
查看各個狀態是否正常,如果出現異常可重啟后,都正常后再次安裝
./bkcli status bkiam
./bkcli check bkiam
./bkcli status cmdb
./bkcli check cmdb
16.JOB安裝agent報錯:get agent status error, [3800003] {'message': 'Fail to connect GSE service. Please check if GSE service is normal
(1)、./bkcli restart gse
再嘗試部署agent
(2)、agent機器查看是否能連接上gse的48533端口

netstat -ptn | grep 48533
17.社區版 6.0 基礎包快速部署,執行./bk_install common 提示pssh不存在
(1). 更新yum源
wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.cloud.tencent.com/repo/centos7_base.repo
wget -O /etc/yum.repos.d/epel.repo http://mirrors.cloud.tencent.com/repo/epel-7.repo
yum clean all
yum makecache
(2). 更新后執行
cd /data/install/
./bk_install common
18.JOB安裝:do migrate [/data/src/job/support-files/bkiam/0001_bk_job_20200808-1000_iam.json] fail
/data/src/job/support-files/bkiam/0001_bk_job_20200808-1000_iam.json import err, Abort.
解決方法:./bkcli restart bkiam
./bkcli initdata cmdb
19.監控平台check錯誤信息:請求系統'metadata_v3'錯誤,返回錯誤碼: 500,返回消息: b'{"results":[{"error":"no backend available now"}]}',請求URL: /get_ts_data/
解決方法:cd /data/install/
./bkcli start bkmonitorv3 influxdb-proxy
或者
systemctl start bk-influxdb-proxy.service
登錄influxdb主機
source /data/install/utils.fc
ssh $BK_ZK_IP
systemctl restart influxdb
20.部署 藍鯨SaaS(bk_fta_solutions) 1 分鍾后報超時錯誤 ,日志顯示APIError: rewrite request failed, oops, there is no topo can be used
按順序執行以下
./bkcli stop cmdb && ./bkcli start cmdb && ./bkcli initdata cmdb && ./bkcli restart cmdb
21.安裝saas時報錯, "Can't connect to MySQL server on 'mysql-default.service.consul'
cd /data/install && ./bkcli check consul
有問題重啟即可

##################################################################
配置郵件通知參數
(開發者中心-藍鯨消息通知-發送郵件)
smtp_host :smtp.qq.combr/>smtp_port:465
smtp_user:xxx@qq.com
smtp_pwd :kfumorvzmryqbjia
br/>smtp_usessl:True
smtp_usetls:False
mail_sender:xxxx@qq.com
#################################
br/>admin常用郵箱:xxx@esharex.com
登錄密碼:Nuonuo1314
##################################
Postman測試:
(示例:
http://paas.bktencent.com:80/api/c/compapi/cmsi/send_mail/?bk_app_code=bk_sops&sender=275374785@qq.com&title=<吳佳桐>; 考試郵件測試&content=<XXX> 考試郵件測試&bk_app_secret=2cba76bc-b10f-437f-b40f-0bcfdb2cb69e&bk_token=WI8TO_mdtWeEgo_skrb0_d2EXhduCTCtgUXTM7pRT8E&receiver=xxx@esharex.com)
GET http://paas.bktencent.com:80/api/c/compapi/cmsi/send_mail/br/>bk_app_code:bk_sops
sender:xxx@qq.com
title:<XXX> 考試郵件測試
content:<
XXX> 考試郵件測試
bk_app_secret:開發者中心-S-mart應用-應用TOKEN
bk_token:web頁面-f12-f5-network-console-Cookies-bk_token
receiver:xxx@esharex.com


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM