之前由於論文等相關原因,需要一個詩詞文字對仗庫,苦於手頭沒有,網上也沒有找到較好的定義好的格式。因此,琢磨着自己想辦法做一個出來。而做詞庫的數據源很重要,選來選去,最后決定使用全唐詩作為數據庫。至於原因,首先是因為其數據量比較大,詩詞覆蓋面比較廣;其次,由於《全唐詩》中大都是唐宋時期的詩詞名篇,結構相對嚴謹,平仄相對,對仗清晰。更重要的是。。苦於國學水平所限,我不知道還有啥別的數據庫可用。
收錄《全唐詩》的網站很多,但這些網站在數據完整性和數據結構簡單性上來說都有一定缺陷。本數據庫中的數據是從鄭州大學圖書館網站上爬取下來的,因為其全唐詩庫收錄了唐代詩人二千五百二十九人的詩作四萬二千八百六三首,共計九百卷。數據完整且容易抽取。由於爬取該數據庫的爬蟲程序是幾年前寫的,而后數度更換編程環境,現在已經找不到這段代碼了,因此不再貼出code,數據庫下載地址見附錄1。
除此之外,我還找到了漢字讀音的一個數據庫(漢字字庫),數據中包含聲母、開合口、韻母、聲調、切語、字、中古拼音等信息,絕對是對仗分析計算的好幫手啊,絕對可以作為評定、推斷標准之一。不過,請注意《全唐詩》收錄的創作的年代都是唐宋之前的,當時詩人們的創作作品時,使用的音韻可能是。。。。,請慎重選擇。此數據庫好像是從北大的一個語言論壇中得來的,是愛好者編輯的,數據的准確性基本可以得到保障。
另外,如果要從《全唐詩》詩詞數據庫中獲得對仗信息,你可能想到需要做中文分詞,但是建議你不要。因為我也有過這想法,但是稍微分析觀察之后發現,其實完全沒有必要,因為中國的古詩詞極為精煉,字字珠璣,少有詞組的形式出現,多是單字表意。如果你堅持試一試的話,可以嘗試使用:。
最后,如果要做自動對聯相關研究工作,可以參考微軟亞洲研究院的一篇論文,他們使用SVM學習機做了一個不錯的自動對聯系統,可惜音韻等信息沒有考慮在內。
附件說明:
1.數據集:https://github.com/todototry/AncientChinesePoemsDB
參考:
1. 全唐詩數據來源: http://www3.zzu.edu.cn/qtss/zzjpoem1.dll/query
2. SVM:
3. 漢字庫:
4. 北大中文論壇: http://www.pkucn.com/thread-248321-1-1.html