1 文字和語言vs數字和信息
2021-12-18 冬 周六記
原始人類A(信息源)將信息Message進行編碼后(聲音)通過空氣(信道)傳輸,原始人類B(接收者)將聽到的聲音進行解碼得到Message。這和當今的通信模型沒有任何不同。但是當時需要表達的信息比較少(事件,物品,心情)比較少。隨着時間的發展信息越來越多,語言就應運而生,可以理解為幾百個信息。有一項研究說任何一種語言只要掌握核心的幾十個詞就可以表達任何意思。
當語言和詞匯進一步發展變到5000個詞,這也就是中文常用詞的數量。沒有人可以記下來這么多的詞匯,所以利用文字來記錄語言就應運而生。語言比文字的起源要早。很多人不會寫字,但交流並沒有什么問題(小孩子就是一個很好的例子,不會寫字,但是會說話,也可以表達自己。語言是先於文字的)。 這5000多個詞匯並非每一個只有一個意思,反而一個詞語是許多概念的聚類,這就出現了語義的混淆,產生歧義。解決的辦法就是分析上下文,分析上下文即是一種概率模型。在Matrin的數學筆記里了解過當年他們是怎么做中文分詞的,基本是基於規則,但是中文的地名人名以及一些莫名其妙的語法讓基於規則的分詞很難有比較高的准確率,當時他們也提出了基於概率來做分詞,似乎沒有什么實際的應用。今天的自然語言處理就是利用概率做的。
文字是信息的載體,而非信息的本身。 不同的語言可以表達同一信息,利用不同的文字。
例如 豬 Pig。不同的文字系統在記錄信息上的能力是等價的。
古埃及的象形文字於公元4世紀左右失傳。1798年拿破侖遠征埃及,同行學者發現了羅塞塔石碑,石碑上用3種語言分別是古埃及象形文字,埃及拼音文字,古希臘文,記錄了托勒密五世登基的詔書,正是因為三種語言的記載,讓人們破譯了古埃及象形文字。從而了解了5000年前古埃及的歷史。由此得出了兩條結論,信息的冗余是信息安全的保障。雙語或者多語的對照語料對於翻譯至關重要!
早期人類對於計數常常是收集小石子來表征現實世界中某些數量,10個羊就在小罐子里放10個小石頭。但更通常的情況是掰手指頭,手指頭掰完了就記一個進位,這也是為什么幾乎所有的文明都用十進制來計數。當然最可愛的還是瑪雅文明,手指頭掰完了他們還要去掰腳趾頭,直到都數完了才記一個進位,所以他們是二十進制的。
無論是手指頭計數還是小石子計數,都是用方便數的事物去對應不方便數的事物。小石頭比亂跑的羊好數,阿拉伯數字比小石頭好數。數就是一種記錄。好數意味着好記錄。存在從一種事物的數量到另一種事物之間的數量的對應。現代集合論對於無窮的表示,與兩個集合中元素的一一對應有關。常用自然數集來做一個標尺,
對於不同位數數字的表示。
數字 | 解釋地區 |
---|---|
1903 | 古印度 |
壹仟玖佰零叄 | 中文 |
LMMIII(1000 + 1000 + 3 - 100) | 古羅馬 |
可以看到中國的解釋是乘法與加法,而古羅馬是加減法。不論高明與否都存在了許多單位量詞。古印度的數字,或者說阿拉伯數字因為存在 0 可以省去許多單位量詞,這種寫法既對應了十進制又方便閱讀,今天的我們利用阿拉伯數字去讀,只需要分着讀1 9 0 3人們也能知道是多少。所以世界上廣為傳播。也導致了數字與文字的抽離。
現代的自然數公理系統所有的自然數均是由0以及一個后繼操作(類似 + 1)衍生出來的。\(a+b\)加法由后繼操作遞歸定義,\(a \times b\)乘法由加法遞歸定義,\(a^b\)是由乘法遞歸定義的。
文字有兩種流派,一種是基於視覺的象形文字,另一種是基於聲音的拼音文字。拼音文字的好處就在於20幾個字符就能表述一個語言系統,若你去發出A,B,C,D的聲音,觀察自己的嘴型,會發現這是拼寫和讀音緊密結合的結果。與象形文字異曲同工之妙。但是拼音文字更加的抽象。
不論拼音文字還是象形文字,常用的詞 拼音少 and or if, 筆畫少,天 地 人,vice versa。寫起來就省地方。這也符合信息論的最短編碼原理。
有意思的是,中國古人的作品由於竹簡的使用,導致盡量壓縮語義,用字比較少。可他們平常說話可不那么說,基本也是白話口語,用字很多。信道寬,則信息無需壓縮可以直接傳輸。信道窄,則需要壓縮信息再傳輸。大學生交文檔作業,老師會要求所有人的文檔放到一個文件夾里壓縮后再傳給他。白話轉成文言文也是一種壓縮過程。
由於古猶太人對於《聖經》的虔誠,抄寫時不可以抄錯,但抄錯在所難免,於是以前的人們就將每一字母對應一個數字,一行一列的字母變成數字加起來如果同聖經原文得數一樣則表示無錯。這同今天的各種校驗方式基本一致。
綜上,古今無異也。