2021-08-05
中午時候,同事說我們一台生產環境服務器的程序發布遇到了問題,一直發布不上去。
發布程序到生產環境,我是用一個腳本來做的,我們在管理界面上操作一下,間接地會觸發一個服務器的腳本,由這個腳本來執行發布動作。
我迅速ssh到生產環境服務器,手動運行腳本,出現了熟悉的Permission denied。
“靠!誰到生產環境改了腳本的執行權限?”——這是我的第一反應。
但很快我就發現腳本具有“x”權限,反復確認我沒看錯后,我嘗試用root去執行,問題依舊,有些奇怪了。
我編寫了一個極簡單的腳本,里面只有一條“ls”命令,加上“x”權限,執行它,嗯?一樣的Permission denied。看來不是腳本內容的問題。
我檢查了我cron定時任務的日志,發現這個問題是前天開始出現的,我開始找人,看誰前天上過服務器做過什么事情,同事都說沒有。我再通過history查詢服務器的命令執行情況,發現除了當天我做的動作之外,就是好幾個星期前的事情了,真沒人上過這台服務器。——更奇怪了。
這問題的難度還在於在網上只能找到最普通的回答:用chmod啊!——顯然我這里不是這個問題。
接着我發現,是所有的腳本都無法執行。但二進制執行文件卻沒問題。
再接着研究我發現腳本可以這樣執行:
$sh ./my_script
間接的用shell就能執行!我有點方向了,后來在網上找到了這個:https://unix.stackexchange.com/questions/136547/what-is-the-difference-between-running-bash-script-sh-and-script-sh
這個帖子討論了 ./script.sh 和 bash ./script.sh的不同,我了解了,但對解決我的問題幫助不大。
再就是這個:
https://unix.stackexchange.com/questions/203371/run-script-sh-vs-bash-script-sh-permission-denied
這是個比較全面的討論Permission Denied的帖子。其中提到了磁盤掛載的時候如果帶有“noexec”參數,就會導致這個問題,這跟我遇到的情況簡直就是一模一樣。遺憾的是,我仔細檢查了我的/etc/fstab,以及當前掛載的情況,並無“noexec”參數。我繼續嘗試了在不同的掛載點上執行腳本,都是一樣的結果。
另外這個帖子還提到了ACL,可以使用命令getfacl來檢查對一個文件的訪問控制,我這里也沒發現任何問題。
檢查用戶/組,沒有發現任何問題。
於是請教高人。高人說給出了幾個建議:
1,腳本頭部加上解釋符“#/bin/sh”——試了,問題依舊
2,檢查磁盤空間是否滿了 —— 檢查了,遠沒滿
3,使用strace跟蹤腳本的運行情況
strace打印了很詳細的信息,但遇到系統調用就直接Permission denied,對於這個問題也沒有更多的幫助。實在古怪了。
最后這個問題被解決了,但原因還是沒找到,解決的方法估計你們也能猜出來了:重啟服務器。這是我能想到的唯一的,可能行得通的解決方案。結果還真奏效了。
高人說:相信你還會遇到這個問題的。我說:墨菲定律,對么?
這個問題,雖然花費了半天時間,最后還是沒找到原因,但學到了些新技能,也不算太虧。