Linux 基礎知識
此篇文章主要會帶你介紹 Linux 操作系統,包括 Linux 本身、Linux 如何使用、以及系統調用和 Linux 是如何工作的。
Linux 簡介
UNIX 是一個交互式系統,用於同時處理多進程和多用戶同時在線。為什么要說 UNIX,那是因為 Linux 是由 UNIX 發展而來的,UNIX 是由程序員設計,它的主要服務對象也是程序員。Linux 繼承了 UNIX 的設計目標。從智能手機到汽車,超級計算機和家用電器,從家用台式機到企業服務器,Linux 操作系統無處不在。
大多數程序員都喜歡讓系統盡量簡單,優雅並具有一致性。舉個例子,從最底層的角度來講,一個文件應該只是一個字節集合。為了實現順序存取、隨機存取、按鍵存取、遠程存取只能是妨礙你的工作。相同的,如果命令
ls A*
意味着只列出以 A 為開頭的所有文件,那么命令
rm A*
應該會移除所有以 A 為開頭的文件而不是只刪除文件名是 A*
的文件。這個特性也是最小吃驚原則(principle of least surprise)
最小吃驚原則一半常用於用戶界面和軟件設計。它的原型是:該功能或者特征應該符合用戶的預期,不應該使用戶感到驚訝和震驚。
一些有經驗的程序員通常希望系統具有較強的功能性和靈活性。設計 Linux 的一個基本目標是每個應用程序只做一件事情並把他做好。所以編譯器只負責編譯的工作,編譯器不會產生列表,因為有其他應用比編譯器做的更好。
很多人都不喜歡冗余,為什么在 cp 就能描述清楚你想干什么時候還使用 copy?這完全是在浪費寶貴的 hacking time
。為了從文件中提取所有包含字符串 ard
的行,Linux 程序員應該輸入
grep ard f
Linux 接口
Linux 系統是一種金字塔模型的系統,如下所示
應用程序發起系統調用把參數放在寄存器中(有時候放在棧中),並發出 trap
系統陷入指令切換用戶態至內核態。因為不能直接在 C 中編寫 trap 指令,因此 C 提供了一個庫,庫中的函數對應着系統調用。有些函數是使用匯編編寫的,但是能夠從 C 中調用。每個函數首先把參數放在合適的位置然后執行系統調用指令。因此如果你想要執行 read 系統調用的話,C 程序會調用 read 函數庫來執行。這里順便提一下,是由 POSIX 指定的庫接口而不是系統調用接口。也就是說,POSIX 會告訴一個標准系統應該提供哪些庫過程,它們的參數是什么,它們必須做什么以及它們必須返回什么結果。
除了操作系統和系統調用庫外,Linux 操作系統還要提供一些標准程序,比如文本編輯器、編譯器、文件操作工具等。直接和用戶打交道的是上面這些應用程序。因此我們可以說 Linux 具有三種不同的接口:系統調用接口、庫函數接口和應用程序接口
Linux 中的 GUI(Graphical User Interface)
和 UNIX 中的非常相似,這種 GUI 創建一個桌面環境,包括窗口、目標和文件夾、工具欄和文件拖拽功能。一個完整的 GUI 還包括窗口管理器以及各種應用程序。
Linux 上的 GUI 由 X 窗口支持,主要組成部分是 X 服務器、控制鍵盤、鼠標、顯示器等。當在 Linux 上使用圖形界面時,用戶可以通過鼠標點擊運行程序或者打開文件,通過拖拽將文件進行復制等。
Linux 組成部分
事實上,Linux 操作系統可以由下面這幾部分構成
引導程序(Bootloader)
:引導程序是管理計算機啟動過程的軟件,對於大多數用戶而言,只是彈出一個屏幕,但其實內部操作系統做了很多事情內核(Kernel)
:內核是操作系統的核心,負責管理 CPU、內存和外圍設備等。初始化系統(Init System)
:這是一個引導用戶空間並負責控制守護程序的子系統。一旦從引導加載程序移交了初始引導,它就是用於管理引導過程的初始化系統。后台進程(Daemon)
:后台進程顧名思義就是在后台運行的程序,比如打印、聲音、調度等,它們可以在引導過程中啟動,也可以在登錄桌面后啟動圖形服務器(Graphical server)
:這是在監視器上顯示圖形的子系統。通常將其稱為 X 服務器或 X。桌面環境(Desktop environment)
:這是用戶與之實際交互的部分,有很多桌面環境可供選擇,每個桌面環境都包含內置應用程序,比如文件管理器、Web 瀏覽器、游戲等應用程序(Applications)
:桌面環境不提供完整的應用程序,就像 Windows 和 macOS 一樣,Linux 提供了成千上萬個可以輕松找到並安裝的高質量軟件。
Shell
盡管 Linux 應用程序提供了 GUI ,但是大部分程序員仍偏好於使用命令行(command-line interface)
,稱為shell
。用戶通常在 GUI 中啟動一個 shell 窗口然后就在 shell 窗口下進行工作。
shell 命令行使用速度快、功能更強大、而且易於擴展、並且不會帶來肢體重復性勞損(RSI)
。
下面會介紹一些最簡單的 bash shell。當 shell 啟動時,它首先進行初始化,在屏幕上輸出一個 提示符(prompt)
,通常是一個百分號或者美元符號,等待用戶輸入
等用戶輸入一個命令后,shell 提取其中的第一個詞,這里的詞指的是被空格或制表符分隔開的一連串字符。假定這個詞是將要運行程序的程序名,那么就會搜索這個程序,如果找到了這個程序就會運行它。然后 shell 會將自己掛起直到程序運行完畢,之后再嘗試讀入下一條指令。shell 也是一個普通的用戶程序。它的主要功能就是讀取用戶的輸入和顯示計算的輸出。shell 命令中可以包含參數,它們作為字符串傳遞給所調用的程序。比如
cp src dest
會調用 cp 應用程序並包含兩個參數 src
和 dest
。這個程序會解釋第一個參數是一個已經存在的文件名,然后創建一個該文件的副本,名稱為 dest。
並不是所有的參數都是文件名,比如下面
head -20 file
第一個參數 -20,會告訴 head 應用程序打印文件的前 20 行,而不是默認的 10 行。控制命令操作或者指定可選值的參數稱為標志(flag)
,按照慣例標志應該使用 -
來表示。這個符號是必要的,比如
head 20 file
是一個完全合法的命令,它會告訴 head 程序輸出文件名為 20 的文件的前 10 行,然后輸出文件名為 file 文件的前 10 行。Linux 操作系統可以接受一個或多個參數。
為了更容易的指定多個文件名,shell 支持 魔法字符(magic character)
,也被稱為通配符(wild cards)
。比如,*
可以匹配一個或者多個可能的字符串
ls *.c
告訴 ls 列舉出所有文件名以 .c
結束的文件。如果同時存在多個文件,則會在后面進行並列。
另一個通配符是問號,負責匹配任意一個字符。一組在中括號中的字符可以表示其中任意一個,因此
ls [abc]*
會列舉出所有以 a
、b
或者 c
開頭的文件。
shell 應用程序不一定通過終端進行輸入和輸出。shell 啟動時,就會獲取 標准輸入、標准輸出、標准錯誤文件進行訪問的能力。
標准輸出是從鍵盤輸入的,標准輸出或者標准錯誤是輸出到顯示器的。許多 Linux 程序默認是從標准輸入進行輸入並從標准輸出進行輸出。比如
sort
會調用 sort 程序,會從終端讀取數據(直到用戶輸入 ctrl-d 結束),根據字母順序進行排序,然后將結果輸出到屏幕上。
通常還可以重定向標准輸入和標准輸出,重定向標准輸入使用 <
后面跟文件名。標准輸出可以通過一個大於號 >
進行重定向。允許一個命令中重定向標准輸入和輸出。例如命令
sort <in >out
會使 sort 從文件 in 中得到輸入,並把結果輸出到 out 文件中。由於標准錯誤沒有重定向,所以錯誤信息會直接打印到屏幕上。從標准輸入讀入,對其進行處理並將其寫入到標准輸出的程序稱為 過濾器
。
考慮下面由三個分開的命令組成的指令
sort <in >temp;head -30 <temp;rm temp
首先會調用 sort 應用程序,從標准輸入 in 中進行讀取,並通過標准輸出到 temp。當程序運行完畢后,shell 會運行 head ,告訴它打印前 30 行,並在標准輸出(默認為終端)上打印。最后,temp 臨時文件被刪除。輕輕的,你走了,你揮一揮衣袖,不帶走一片雲彩。
命令行中的第一個程序通常會產生輸出,在上面的例子中,產生的輸出都不 temp 文件接收。然而,Linux 還提供了一個簡單的命令來做這件事,例如下面
sort <in | head -30
上面 |
稱為豎線符號,它的意思是從 sort 應用程序產生的排序輸出會直接作為輸入顯示,無需創建、使用和移除臨時文件。由管道符號連接的命令集合稱為管道(pipeline)
。例如如下
grep cxuan *.c | sort | head -30 | tail -5 >f00
對任意以 .t
結尾的文件中包含 cxuan
的行被寫到標准輸出中,然后進行排序。這些內容中的前 30 行被 head 出來並傳給 tail ,它又將最后 5 行傳遞給 foo。這個例子提供了一個管道將多個命令連接起來。
可以把一系列 shell 命令放在一個文件中,然后將此文件作為輸入來運行。shell 會按照順序對他們進行處理,就像在鍵盤上鍵入命令一樣。包含 shell 命令的文件被稱為 shell 腳本(shell scripts)
。
推薦一個 shell 命令的學習網站:https://www.shellscript.sh/
shell 腳本其實也是一段程序,shell 腳本中可以對變量進行賦值,也包含循環控制語句比如 if、for、while 等,shell 的設計目標是讓其看起來和 C 相似(There is no doubt that C is father)。由於 shell 也是一個用戶程序,所以用戶可以選擇不同的 shell。
Linux 應用程序
Linux 的命令行也就是 shell,它由大量標准應用程序組成。這些應用程序主要有下面六種
- 文件和目錄操作命令
- 過濾器
- 文本程序
- 系統管理
- 程序開發工具,例如編輯器和編譯器
- 其他
除了這些標准應用程序外,還有其他應用程序比如 Web 瀏覽器、多媒體播放器、圖片瀏覽器、辦公軟件和游戲程序等。
我們在上面的例子中已經見過了幾個 Linux 的應用程序,比如 sort、cp、ls、head,下面我們再來認識一下其他 Linux 的應用程序。
我們先從幾個例子開始講起,比如
cp a b
是將 a 復制一個副本為 b ,而
mv a b
是將 a 移動到 b ,但是刪除原文件。
上面這兩個命令有一些區別,cp
是將文件進行復制,復制完成后會有兩個文件 a 和 b;而 mv
相當於是文件的移動,移動完成后就不再有 a 文件。cat
命令可以把多個文件內容進行連接。使用 rm
可以刪除文件;使用 chmod
可以允許所有者改變訪問權限;文件目錄的的創建和刪除可以使用 mkdir
和 rmdir
命令;使用 ls
可以查看目錄文件,ls 可以顯示很多屬性,比如大小、用戶、創建日期等;sort 決定文件的顯示順序
Linux 應用程序還包括過濾器 grep,grep
從標准輸入或者一個或多個輸入文件中提取特定模式的行;sort
將輸入進行排序並輸出到標准輸出;head
提取輸入的前幾行;tail 提取輸入的后面幾行;除此之外的過濾器還有 cut
和 paste
,允許對文本行的剪切和復制;od
將輸入轉換為 ASCII ;tr
實現字符大小寫轉換;pr
為格式化打印輸出等。
程序編譯工具使用 gcc
;
make
命令用於自動編譯,這是一個很強大的命令,它用於維護一個大的程序,往往這類程序的源碼由許多文件構成。典型的,有一些是 header files 頭文件
,源文件通常使用 include
指令包含這些文件,make 的作用就是跟蹤哪些文件屬於頭文件,然后安排自動編譯的過程。
下面列出了 POSIX 的標准應用程序
程序 | 應用 |
---|---|
ls | 列出目錄 |
cp | 復制文件 |
head | 顯示文件的前幾行 |
make | 編譯文件生成二進制文件 |
cd | 切換目錄 |
mkdir | 創建目錄 |
chmod | 修改文件訪問權限 |
ps | 列出文件進程 |
pr | 格式化打印 |
rm | 刪除一個文件 |
rmdir | 刪除文件目錄 |
tail | 提取文件最后幾行 |
tr | 字符集轉換 |
grep | 分組 |
cat | 將多個文件連續標准輸出 |
od | 以八進制顯示文件 |
cut | 從文件中剪切 |
paste | 從文件中粘貼 |
Linux 內核結構
在上面我們看到了 Linux 的整體結構,下面我們從整體的角度來看一下 Linux 的內核結構
內核直接坐落在硬件上,內核的主要作用就是 I/O 交互、內存管理和控制 CPU 訪問。上圖中還包括了 中斷
和 調度器
,中斷是與設備交互的主要方式。中斷出現時調度器就會發揮作用。這里的低級代碼停止正在運行的進程,將其狀態保存在內核進程結構中,並啟動驅動程序。進程調度也會發生在內核完成一些操作並且啟動用戶進程的時候。圖中的調度器是 dispatcher。
注意這里的調度器是
dispatcher
而不是scheduler
,這兩者是有區別的scheduler 和 dispatcher 都是和進程調度相關的概念,不同的是 scheduler 會從幾個進程中隨意選取一個進程;而 dispatcher 會給 scheduler 選擇的進程分配 CPU。
然后,我們把內核系統分為三部分。
- I/O 部分負責與設備進行交互以及執行網絡和存儲 I/O 操作的所有內核部分。
從圖中可以看出 I/O 層次的關系,最高層是一個虛擬文件系統
,也就是說不管文件是來自內存還是磁盤中,都是經過虛擬文件系統中的。從底層看,所有的驅動都是字符驅動或者塊設備驅動。二者的主要區別就是是否允許隨機訪問。網絡驅動設備並不是一種獨立的驅動設備,它實際上是一種字符設備,不過網絡設備的處理方式和字符設備不同。
上面的設備驅動程序中,每個設備類型的內核代碼都不同。字符設備有兩種使用方式,有一鍵式
的比如 vi 或者 emacs ,需要每一個鍵盤輸入。其他的比如 shell ,是需要輸入一行按回車鍵將字符串發送給程序進行編輯。
網絡軟件通常是模塊化的,由不同的設備和協議來支持。大多數 Linux 系統在內核中包含一個完整的硬件路由器的功能,但是這個不能和外部路由器相比,路由器上面是協議棧
,包括 TCP/IP 協議,協議棧上面是 socket 接口,socket 負責與外部進行通信,充當了門的作用。
磁盤驅動上面是 I/O 調度器,它負責排序和分配磁盤讀寫操作,以盡可能減少磁頭的無用移動。
-
I/O 右邊的是內存部件,程序被裝載進內存,由 CPU 執行,這里會涉及到虛擬內存的部件,頁面的換入和換出是如何進行的,壞頁面的替換和經常使用的頁面會進行緩存。
-
進程模塊負責進程的創建和終止、進程的調度、Linux 把進程和線程看作是可運行的實體,並使用統一的調度策略來進行調度。
在內核最頂層的是系統調用接口,所有的系統調用都是經過這里,系統調用會觸發一個 trap,將系統從用戶態轉換為內核態,然后將控制權移交給上面的內核部件。