Begin
上次用C#把《全唐詩》和《唐詩三百首》整理成為QData格式之后,就開始進行各種分析…
詳細內容可以看看上次這篇文章,《用C#來學習唐詩三百首和全唐詩》
接下來講一下分析的內容,由於筆者不是很懂文學和大數據統計什么的,所以只好隨便分析一通,首先分析的有:標題、作者、單字分析、還有詩句字數(也就是“五言”、“七言”)
標題分析
標題分析就是分析有多少首詩采用了某一個標題啦~
首先是《唐詩三百首》

從統計可以看到《子夜四時歌》出現的次數是最多的= =.. 雖然不懂是什么,但覺得蠻厲害的
接下來看看《全唐詩》的分析結果

哇,這下可就厲害了,我的《全唐詩》數據文件中共有42904首詩,雖然不全,不足以稱之為“全”唐詩,但是也勝在基數之大。
從分析結果看到,排名第一的標題是《句》,共有437首詩采用這個標題,看起來就很非主流的一個標題居然深受唐朝文人騷客的喜愛;排名第二的是《古意》,不過這個和第一名的差距可就大了,總共只有39首,可不知道這個”古意“是懷古之意還是古人之意。
作者分析
作者分析就是統計每個詩人總共寫了多少首詩,以及總字數。
先來看看《唐詩三百首》的結果

嗯,不錯,杜甫摘取桂冠。不過《三百首》畢竟是小樣本,真正的還得看大塊頭的。

驚呆了,杜甫的第一名被白居易搶走了,而且差距有點大。
在《全唐詩》中,白居易2643首作品獲得”寫詩達人“稱號= =.. 他寫了《全唐詩》中6%以上的詩,不過為何白居易在《唐詩三百首》里只有6首作品呢?筆者大膽猜測《唐詩三百首》選入的詩可能是比較high bigger的,而白居易的詩詞以通俗易懂聞名,”鄰家的老奶奶都能看懂“,可能是這個原因導致了《三百首》中收錄的不多。
再看看第二名杜甫,收錄進《全唐詩》的有1151首詩,是以和白居易共同占據了唐朝近一成的古詩量,在唐朝這個文化高度繁榮鼎盛的朝代能有這樣的成就實屬難能。
第三名就是大名鼎鼎的詩仙李白了,總共897首詩,是以既有數量亦有質量,如果李白看到這里,會不會突然來一句”仰天大笑出門去“呢..
呃,接下來第四名居然是”佚名“,看來唐朝寫詩的人實在太多了,不知作者名的唐詩竟然有842首之多。
嗯,第五名是齊己,表示比較陌生,筆者讀書太少了..
緊隨其后的分別是劉禹錫、元稹、李商隱等。
筆者特別喜歡元稹的一首詩:
離思五首·其四
曾經滄海難為水,除卻巫山不是雲。
取次花叢懶回顧,半緣修道半緣君。
關於作者分析的,在本文中就到此為止了。
單字分析
單字分析便是分析每個字出現的次數以及所占的比例。
先看《三百首》中的結果
《唐詩三百首》中共有 23719 個字,在去除重復之后剩下 2511 字。

可以看到,使用得最多的這些字都是我們平常很常見的字,所以古人雖然滿肚子墨水,但是用的字詞也是最平常不過的。果然印證了一句話”藝術來源於生活..“
出現頻率最高的前四名分別是”不“、”人“、”山“、”無“。
再來看看《全唐詩》的情況。
《全唐詩》中共有 3163391 個字,去除重復之后剩下 7543 字。

《全唐詩》里的字果然和《唐詩三百首》不是同一個數量級的。
不過,不知道你們有沒有發現,數量最多的前四個字,和《唐詩三百首》里的是一樣的,連順序也是一樣的,都是”不“、”人“、”山“、”無“。(這可以說是小樣本預測總體情況嗎?..
還有一個現象,出現最多的字里面,多是”不“、”無“這樣具有否定意義的字,為什么否定意義的字占得最多呢,對此筆者專門請教了文學院專業的同學,根據她給的專業解釋,大概可以總結為以下幾點:
-
唐朝雖然繁榮昌盛,但是極盛時期占整個唐朝歷史並不多,作為文人墨客,大都是憂國憂民,”先天下之憂而憂“
-
消極的情緒可以給人帶來靈感,詩人官場失意、懷才不遇,這時壯志難酬,作為文人,只能用墨字抒發自己的憂愁了。
嗯,我覺得也是,一個人的生活如果波瀾不驚,一帆風順,那他怎么會產生豐富的情感,就如南唐李后主李煜,大家都道他文采非凡,可是他許多驚艷世人的作品都是在亡國之后被宋主趙匡胤俘虜軟禁時創作的。
五言七言分析
文章的最后貼出這個結果,其實應該也沒什么意義的,就是統計詩句的長度。
《唐詩三百首》

《全唐詩》

對於詩句長度,我只是簡單的做了數字-漢字的轉換,比如”17“轉換為”一七“,所以看起來會比較別扭,不過因為不知道這個結果有什么可以分析的,所以未加優化。
