「MoreThanJava」一文了解二進制和CPU工作原理

本文轉載自查看原文 2020-06-02 08:37 593 MoreThanJava

「MoreThanJava」 宣揚的是 「學習，不止 CODE」，本系列 Java 基礎教程是自己在結合各方面的知識之后，對 Java 基礎的一個總回顧，旨在 「幫助新朋友快速高質量的學習」。
當然 不論新老朋友 我相信您都可以 從中獲益。如果覺得 「不錯」 的朋友，歡迎 「關注 + 留言 + 分享」，文末有完整的獲取鏈接，您的支持是我前進的最大的動力！

Part 1. 原來，我們是這樣記數的

本節內容節選自下方參考資料 1

在討論「二進制」和「CPU 如何工作」之前，我們先來討論一下我們生活中最稀疏平常的數字，我們與之頻繁地打交道：一個約定的時間、一件商品的價格、一個人的身高....卻很少有人細細想過，這些數字是如何表達出來的？為什么你理所當然地把 1024 理解為「一千零二十四」而不是別的含義？

也許你從未想過，在這簡單的記數中，沉淀着人類的大智慧。

一進制計數法

圖片來源：https://www.goethe.de/ins/cn/cn/kul/mag/20629923.html

早在數字的概念產生之前，人類就學會了使用樹枝、石子、貝殼等自然界隨處可見的小物件表示獵物的、果實的、部落人口的數量。比如在某個角落堆上一堆石子，每打到 1 只獵物，就扔 1 顆石子進去，每吃掉 2 只獵物，就從中取走 2 顆石子。他們並不在意石子的總數，只是時不時地瞅一眼，心底大致有數。

其實這是一種最朴素的記數方式，數學家稱之為 一進制記數法（unary numeral system）。我們把它符號化一下，比如用斜杠 / 來表示：

1 就是 /；
2 就是 //；
4 就是 ////；

好像沒毛病，我們平時掰手指用的就是這種記數法，但數字一大，場面就要失控了。

符值相加記數法

為了解決記錄大數的問題，於是我們得發明一些其他符號來表示更大的數值，比如用橫杠 - 表示 10，用十字 + 表示 100。那么：

16 就是 -//////;
32 就是 ---//;
128 就是 +--////////;

漂亮....這種靠符號類型和符號數量表示數字的方法被稱為 符值相加記數法（sign-value notation），古埃及和古羅馬用的都是它，只不過符號各不相同。

古埃及的記數符號：

1	10	100	1000	10000	100000	1000000

1024 在古埃及就寫作：

你會發現，符值相加記數法的一大優點是，符號的順序可以任意打亂，數字含義不受影響。我國藏族曾用石子表示 1、木棍表示 10、果核表示 100、蠶豆表示 1000、瓦片表示 10000，那么，當你把 1 顆蠶豆、2 根木棍和 4 顆石子胡亂地攥在手里，別人依然知道它們是 1024。

古羅馬的做法略有不同，他們對五進制情有獨鍾：

1	5	10	50	100	500	1000
I	V	X	L	C	D	M

這些符號沿用至今，想必大家（至少對前 3 個）都比較熟悉，許多鍾表仍保留着使用羅馬數字的習慣，1~12 分別表示為：I、II、III、IV、V、VI、VII、VIII、IX、X、XI、XII。你會發現，羅馬記數法是符值相加記數法的變種，因為它不光「相加」，還「相減」。這種方式就不允許符號亂序了，IV 和 VI 表示的是不同的數字。

那羅馬人何苦要使用這種更復雜的記數法呢？無非是為了讀寫方便。同樣表示 9，IX 比 VIIII 更簡潔。

其實有一種更好使的方法——用另外一些列符號來表示符號的數量。比如用 A 表示 1 個符號，用 B 表示 2 個符號，以此類推，用 I 表示 9 個符號。

如此，上文表示 256 的 ++-----////// 就可以寫作 B+E-F/。你一定感覺莫名其妙，這種寫法哪里方便了。其實中文的數字表示就是這種形式，只不過我們用得太習慣了，以至於沒有發現。

在中文中，個、十、百 代替了 /、-、+，而 一、二、三 代替了 A、B、C。256 就寫作 二百五十六個，個 比較累贅，我們通常把它省略了。

其實像日語、英語用的也同樣是這種記數法，簡潔、優雅。

美中不足的是，這種形式雖便於讀寫，卻不便於計算。中國古人為算籌和算盤這類經典算具搭建起廣闊的舞台，卻沒給筆算留出一席之地。想象一下，如果讓你把這些漢字寫在草稿紙上，列個豎式，你的內心一定非常別扭。

位值制記數法

公元5世紀，印度數學家阿耶波多（Aryabhata 476–550）創立了現在廣泛使用的 位值制記數法（positional notation/place-value notation），該記數法使用的主要符號，是同為印度人發明的阿拉伯數字：0、1、2、3、4、5、6、7、8、9。

與符值相加記數法類比，位值制中的 1、2、3 代替的是 A、B、C，那 /、-、+ 呢？是 靠阿拉伯數字的位置來表示的。眾所周知，最右位相當於 /，次右位相當於 -。靠每個位置上的數值來表示數字，故名位值制。

嚴謹的數學家用一種多項式高度概括了位值制記數法的本質，在十進制中，這個多項式是這樣的：

這是一個 n 位十進制數，a_i 就是第 i 位上的數值。為便於直觀理解，舉個 1024 的例子吧：

由於我們熟悉了十進制，這樣費心費力的展開可能會讓你覺得好笑，但當我們把它推廣到其他進制時，這個多項式的價值就體現了出來。n 位 b 進制數的位值制表示：

1024 用二進制怎么表示？

因此，1024 的二進制寫作 10000000000。

除了最普遍的十進制和計算機中的二進制，常見的還有七進制（如 1 周 7 天）、十二進制（如 1 年 12 個月）、十六進制（如古代 1 斤 16 兩）、六十進制（如六十甲子）等等，只要有意義，任何進制都可以為你所用。

非標准位值制

在上述的多項式中，如果 a_i 或 b 的取值奇葩一點，就形成了 非標准位值制（non-standard positional numeral systems），這類記數法往往應用於專業領域，很難在日常生活中見到。比如標准位值制中的三進制 a_i 的取值為 0、1、2，但在一種名為平衡三進制（balanced ternary）的非標准位值制中，a_i 取 -1、0、1，蘇聯曾使用這種進制研發電子計算機。

Part 2. 二進制簡介

圖片來源：https://zhuanlan.zhihu.com/p/26743163

至此，你對「二進制」應該會感覺親切了些，它只是一種數制而已，本質上與我們熟悉的十進制沒有很大的差別，我們這一 Part 來稍微理解一下二進制。（至於電腦為什么使用二進制我們在下一 Part 中介紹）

二進制的基本運算

十進制中的那些基本運算原則，二進制中同樣適用，只不過需要稍加變幻而已，下面我們分別就加、減、乘、除四則運算來介紹。

二級制加法

根據「逢二進一」規則，二進制數加法的法則為：

0＋0＝0
0＋1＝1＋0＝1
1＋1＝0　（進位為1） 
1＋1＋1＝1 （進位為1）

例如：1101 和 1011 相加過程如下：

二進制數的減法

根據「借一有二」的規則，二進制數減法的法則為：

0－0＝0
1－1＝0
1－0＝1
0－1＝1 （借位為1）

例如：1101 減去 1011 的過程如下：

二進制的乘法

二進制數乘法過程可仿照十進制數乘法進行。但由於二進制數只有 0 或 1 兩種可能的乘數位，導致二進制乘法更為簡單。二進制數乘法的法則為：

0×0＝0
0×1＝1×0＝0
1×1＝1

例如：1001 和 1010 相乘的過程如下：

二進制的除法

二進制數除法與十進制數除法很類似。

例如：100110 ÷ 110 的過程如下：

二進制為什么能表示所有的數據

因為編碼規定。

之前我們有說到，所有保存的程序和數據在計算機中都被描述為文件，也就是說我們能夠知道當前的數據集合被期望的用途是什么，也就能夠找到對應的 處理器 來正確處理當前的數據。

例如保存文字

拿文字舉例，為了讓一串 0、1 能夠代表特定的文字，人們規定使用一個字節中的七位來表達特定的文字，這就是大名鼎鼎 ASCII (American Standard Code for Information Interchange) 碼，ASCll 碼能夠表達 2⁷=128 種字符(編碼從 0~127)，對於 26 個英文字母和一些常用的可打印字符，這完全足夠了：

可是，世界文化是多元的，面對類似漢字這樣的象形文字，ASCll碼表用起來自然是捉襟見肘。

窮則思變，一個字節不行，那就兩個字節，這就是大名鼎鼎的 Unicode 碼，不難看出，Unicode 碼有 2¹⁶=65536 種表示方式，這樣就足以表達一些常用的字符了，值得一提的是，Unicode 碼算是在 ASCll 碼上的一種擴充,其第 0~127 個編碼字符與 ASCll 碼表一模一樣。

再比如圖片

這里涉及一點點物理知識，話說很久以前，牛頓通過三棱鏡把白色的光分解成七種不同顏色的光，后來又通過各種實驗發現紅、綠、藍三種顏色的光是無法被分解的，因此我們就稱為紅藍綠為光的三原色。

至此人類已經知道了：可以通過組合不同比例的紅、綠、藍三種顏色來獲得各種各樣的顏色，那么我們就可以在計算機上模擬了。現在的計算機，一般使用 32 位來表示顏色，32 位平分給四個分量，也就是每個分量 8 位。

為啥是四個顏色分量?

因為顏色模型中有一個 alpha 值，用來表示透明度，這一點我們先不考慮。總之三種顏色，每個使用 8 位來表示的話，我們就能夠表示 256 * 256 * 256 = 16777216 種顏色了，已經足夠基礎的使用了。

先來看一張圖片：

這張圖像的尺寸是 600px * 664px（px 是一種圖片單位，中文名稱為像素，你可以暫時理解為一個點）。我們把它放大一下，如下圖所示：

看見了嗎？實際上，大部分圖像（你拍攝的照片、你掃描的圖片、你使用 iPad 畫的圖片等等...）都是位圖文件，位圖就是由像素點構成的，它就像是一個網格一樣，每個格子里面填一個顏色。（除了位圖外，還有一種圖是矢量圖，它描述的是形狀而非網格）

OK，我想你已經能理解圖像是由像素點組成的了（事實上我們的顯示器也是），我們只需要在編碼中附帶上一些額外的信息，例如圖像有多大的尺寸、時間、作者、顏色深度、是否支持透明度之類的就能夠對圖像進行正確表示了。（視頻可以簡單理解成一張張連續不斷的圖片）

要讓顯示器正確顯示圖片或者視頻，只需要讓顯示器上每個像素顯示特定的顏色就好了。

圖片來源：https://www.bbc.co.uk/bitesize/topics/zf2f9j6/articles/z2tgr82

Part 3. 為什么是二進制？

圖片來源：https://zhuanlan.zhihu.com/p/33439000

可為什么一定是二進制呢？使用人類習慣的十進制不好嗎？

理由一：物理上易於實現

計算機依靠電力工作，這也就意味着需要將數字信號映射到電信號，實現這種映射最簡單的方法是：

0 - 沒有電（0 V）
1 - 有點（5 V）

二進制在技術上最容易實現。這是因為具有兩種 穩定狀態 的物理器件很多，如門電路的導通與截止、電壓的高與低等，而它們恰好可以對應表示 “1” 和 “0” 這兩個數碼。假如采用十進制，那么就要制造具有 10 種 穩定狀態 的物理電路，而這是非常困難的。

理由二：機器可靠性高

為什么使用更復雜的數字系統是一個問題？

假設我們使用三元（3 位數字）數字系統涉及計算機，如果我們具有從 0 V 到 5 V 的電壓，那么我們可以進行以下的映射：

0 - 0 V;
1 - 2.5 V;
2 - 5 V;

圖片來源：https://pmihaylov.com/intro-binary-numbers/

看起來合理吧？但是，想象一下，我以 2.5 V 的電壓發送了一個數字。但是由於電路中的一些噪聲，我在輸出端得到 2.3 V 的電壓，因此將其視為 0。結果是？

有人給我發送了 1，但我將其視為 0。數據丟失可是一個非常嚴重的問題。

使用二進制則可靠得多，由於電壓的高和低、電流的有和無等都是一種 質的變化，兩種物理狀態穩定、分明，因此，二進制碼傳輸的抗干擾能力強，鑒別信息的可靠性高。

為什么計算機系統必須有時鍾

圖片來源：http://programmedlessons.org/Java9/chap02/ch02_11.html

建立數字系統的目的是 僅在某些時間點測試開/關（二進制）值，這使電線（或其他設備）有時間更換。這就是計算機系統有時鍾的原因。

時鍾會周期性地進行信號的測量，圖中所示的 T1 和 T2 就是可以測量信號的時間點。

時鍾利用所有這些時間點來保持同步。更快的時鍾意味着每秒可以對電線進行更多次測試，並且整個系統運行得更快。2 GHz 處理器每秒檢查二進制值 20 億次。在這些時間之間，允許值改變並穩定下來。處理器芯片速度越快，每秒可以測試的次數就越多，每秒可以做出的決策就越多。

理由三：運算規則簡單

數學推導已經證明，對 N 進制數進行算術求和或求積運算，其運算規則各有 N(N+1)/2 種。如采用十進制，則 N=10，就有 55 種求和或求積的運算規則；而采用二進制，則 N=2，僅有 3 種求和或求積的運算規則，以上面提到的加法為例：

0+0=0，0+1=1 (1+0=1)，1+1=10

因而可以大大簡化運算器等物理器件的設計。

理由四：邏輯判斷方便

采用二進制后，僅有的兩個符號 “1” 和 “0” 正好可以與邏輯命題的兩個值 “真” 和 “假” 相對應，能夠方便地使用邏輯代數這一有力工具來分析和設計計算機的邏輯電路。

雖然在 1950 年代就造出了更加高效的三元計算機，但在效率和復雜度的取舍上，始終抵不過二進制。二進制仍然在當今世界中長期存在。

Part 4. CPU 的實際工作方式

上面我們了解到計算機以二進制的形式運行，它們只有兩種狀態：開（1）和關（0），為了執行二進制計算，我們需要采用一種特殊的電子元器件，稱為 「晶體管」。暫時我們把它理解為一種開關吧，通電就打開，沒電流通過就關閉。

利用"開關"搭建邏輯電路

我們知道，給電燈通上電，它就會亮：

於是，結合上開關，我們就能搭建出最基礎的與門和或門。

與門

該電路的邏輯是：只有當 A 和 B 同時開啟時，LED 燈才會亮，也就是認為輸出 1，我們可以利用電信號來簡單模擬一下：

A	B	Y
0	0	0
1	0	0
0	1	0
1	1	1

或門

該電路的邏輯是：當 A 或者 B 開啟時，LED 燈就會亮，也就是認為輸出 1，我們可以利用電信號來簡單模擬一下：

A	B	Y
0	0	0
1	0	1
0	1	1
1	1	1

其他門

類似地，我們可以借助更多的電子元器件來創造出基礎的 7 種邏輯門電路：

圖片來源：https://www.zhihu.com/question/348237008/answer/843382847 | @Zign

這里需要特別提一下 異或門，我們需要先知道有一種電子元器件可以利用電氣特性對 輸入取反，也就是說輸入 1 則輸出 0，輸入 0 則輸出 1，那么我們就可以 簡單模擬 出異或門邏輯電路（實際會更復雜些，這里僅展示出異或的意思）：

A' 和 B' 分別表示 A 和 B 開關的反值，從圖中我們很容易知道只有當 A、B 只存在一個輸入 1 時，整個電路才會輸出 1。

利用邏輯門簡單計算加法

OK，上面我們了解到我們能夠利用 "開關" 來模擬邏輯的運算，我們接下來試着還原一個簡單的加法運算器是如何實現的：

僅需兩個門，就可以完成基本的二進制加法運算。上圖是利用 logic.ly 創建的半加法器，A、B 相當於使我們計算的兩個數，最后一塊相當於是我們的數顯芯片，它的功能是根據輸入顯示數字，從上到下的引腳（也就是圖中輸入的地方，通常我們這樣稱呼）分別對應了 2⁰=1、2¹=2、2²=4、2³=8 的輸入，沒有任何輸入時顯示為 0，如果 引腳 1（對應 2⁰=1）像上圖一樣有輸入，則顯示 0 + 1 = 1。

我們來理解一下上方的電路：

如果僅打開一個輸入，但不同時打開兩個輸入，則此處的 XOR 門（異或門）將打開，此時對應輸入 引腳 1，顯示 數字 1（類似於 1 + 0 和 0 + 1)；
如果兩個輸入均打開，則 AND 門(與門)將打開，此時對應輸入 引腳 2，顯示 數字 2（類似於 1 + 1）；
如果沒有輸入，則 AND 門和 XOR 門都保持關閉，此時顯示 數字 0（類似於 0 + 0）；

因此，如果兩個都打開，則 XOR 保持關閉，並且 AND 門打開，得出正確的答案為 2：

但這只是最基礎的半加法運算器，不是太有用，因為它只能解決最簡單的數學問題之一。但如果我們把它們兩個與另一個輸入連接，就會得到一個完整的加法器：

仔細思考幾遍，你就會得知這個三個輸入的加法器已經可以計算 3 個二進制數字的加法運算了，我們如法炮制，可以通過連接更多的"進位"來使這個加法器能夠運算更多的數，這當然也意味着這個計算鏈條更長。

大多數其他數學運算都可以加法完成。乘法只是重復加法，減法可以通過一些奇特的位反轉來完成，而除法只是重復減法。並且，盡管所有現代計算機都具有基於硬件的解決方案以加快更復雜的操作，但從技術上講，您可以使用完整的加法器來完成全部操作。

總線和內存

現在，我們的計算機只不過是一個計算器，它記不住任何內容也對輸出沒有任何操作，上述電路只是接了一個顯示單元而已。

上面展示的是一個存儲單元。它使用了大量的 NAND 門，並且在實際生產中，根據存儲技術的不同，它們可能會大不相同，但其功能是相同的。

您給它一些輸入，並打開“寫”位（Write 輸入 1），它將把輸入存儲在單元內。這不僅是一個存儲單元，因為我們還需要一種從中讀取信息的方法。這是通過一個使能器完成的，該使能器是「存儲器」中每個位的“與”門的集合，所有位都與另一個輸入（即“讀取”位）綁定在一起。寫入和讀取位通常也稱為“設置”(set)和“啟用”(enable)。

上面整個存儲單元都包裹在所謂的寄存器中。這些寄存器連接到總線，總線是圍繞整個系統運行的一束電線，並連接到每個組件。即使現代計算機也具有總線，盡管它們可能具有多個總線以提高多任務處理性能。

每個寄存器仍有一個讀寫位，但是在這種設置下，輸入和輸出是一樣的。這實際上很好。例如：如果要將 R1 的內容復制到 R2，則應打開 R1 的讀取位，這會將 R1 的內容壓入總線。當讀取位打開時，您將打開 R2 的寫入位，這會將總線內容復制到 R2 中。

寄存器也用於制作 RAM。RAM 通常布置在網格中，並且導線有兩個方向：

解碼器采用二進制輸入並打開相應的編號線。例如，11 在二進制數中是 3，即最高的 2 位數字，因此解碼器將打開最高的線路。每個路口都有一個寄存器。所有這些都連接到中央總線以及中央寫入和讀取輸入。只有跨寄存器的兩條導線也都打開時，讀和寫輸入才會打開，從而有效地允許您選擇要從中進行讀寫的寄存器。同樣，現代 RAM 要復雜得多，但是此設置仍然有效。

時鍾，步進器和解碼器

寄存器無處不在，是在 CPU 中移動數據並將信息存儲在 CPU 中的基本工具。那么，是什么告訴他們移動數據的呢？

時鍾是 CPU 核心中的第一個組件，它將按設置的時間間隔（以赫茲或每秒周期為單位）關閉和打開。這就是您看到的最直觀的 CPU 速度指標。

時鍾具有三種不同的狀態：基本時鍾，使能時鍾和設置時鍾。基本時鍾將打開半個周期，另一半關閉。使能時鍾用於打開寄存器，並且需要更長的時間才能確保數據被使能。設置時鍾必須始終與使能時鍾同時打開，否則可能會寫入錯誤的數據。

時鍾連接到步進器，步進器將從 1 到最大步數進行計數，並在完成后將自身重置為 1。時鍾還連接到 CPU 可以寫入的每個寄存器的 AND 門：

這些 “與” 門還連接到另一個組件的輸出，即指令解碼器。指令解碼器接受 SET R2 TO R1 之類的指令，並將其解碼為 CPU 可以理解的內容。它有自己的內部寄存器，稱為“指令寄存器”，該寄存器存儲了當前操作。它的精確程度取決於您正在運行的系統，但是一旦解碼，它將打開正確的設置並啟用正確寄存器的位，這些寄存器將根據時鍾觸發。

程序指令存儲在 RAM（或現代系統中的 L1 高速緩存，更靠近 CPU）中。由於程序數據與其他所有變量一樣都存儲在寄存器中，因此可以隨時對其進行操作以在程序中跳轉。這就是程序通過循環和 if 語句獲取結構的方式。跳轉指令將指令解碼器正在讀取的存儲器中的當前位置設置到其他位置。

一切如何配合

現在，我們對 CPU 工作原理的有了一些基本的了解。主總線跨越整個系統，並連接到所有寄存器。完整的加法器以及其他一系列運算都打包在算術邏輯單元或 ALU 中。該 ALU 將與總線建立連接，並且還將具有自己的寄存器來存儲正在操作的第二個數字。

為了執行計算，將程序數據從系統 RAM 加載到控制部分。控制部分從 RAM 中讀取兩個數字，將第一個數字加載到 ALU 的指令寄存器中，然后將第二個數字加載到總線上。同時，它向 ALU 發送指令代碼，告知其操作方法。然后，ALU 執行所有計算，並將結果存儲在另一個寄存器中，CPU 可以從該寄存器中讀取該值，然后繼續該過程。

參考資料

原來，我們是這樣記數的 - https://www.jianshu.com/p/58844323e4fb
二進制數的運算方法 - https://www.jianshu.com/p/560aba49c9a4
文字,圖片,視頻,音頻的二進制表示 - https://blog.csdn.net/c46550/article/details/91040925
知乎 - 計算機只認識0和1但是怎么表示圖像和影視等等眾多應用的？ | @kross - https://www.zhihu.com/question/36269548
Introduction to binary numbers - https://pmihaylov.com/intro-binary-numbers/
What is Binary, and Why Do Computers Use It? - https://www.howtogeek.com/367621/what-is-binary-and-why-do-computers-use-it/
CPU 是怎樣認識代碼的？ | 知乎 - https://www.zhihu.com/question/348237008/answer/843382847 | @Zign
HTG Explains: How Does a CPU Actually Work? - https://www.howtogeek.com/367931/htg-explains-how-does-a-cpu-actually-work/

往期推薦

本文已收錄至我的 Github 程序員成長系列 【More Than Java】，學習，不止 Code，歡迎 star：https://github.com/wmyskxz/MoreThanJava

個人公眾號 ：wmyskxz，個人獨立域名博客：wmyskxz.com，堅持原創輸出，下方掃碼關注，2020，與您共同成長！

非常感謝各位人才能 看到這里，如果覺得本篇文章寫得不錯，覺得 「我沒有三顆心臟」有點東西 的話，求點贊，求關注，求分享，求留言！

創作不易，各位的支持和認可，就是我創作的最大動力，我們下篇文章見！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 一文了解二進制和CPU工作原理一文了解進制之間的原理和轉換二進制你了解多少? 二進制乘除的原理 Seata是什么？一文了解其實現原理 [8位二進制CPU的設計和實現] CPU基本電路的實現二進制補碼的數學原理二進制補碼計算原理詳解 C#由轉換二進制所引起的思考，了解下？十進制與二進制等互轉原理