大數據之行,始於足下:談談語料庫知多少
作者:白寧超
2016年7月20日13:47:51
摘要:大數據發展的基石就是數據量的指數增加,無論是數據挖掘、文本處理、自然語言處理還是機器模型的構建,大多都是基於一定量的數據,數據規模達到一定程度,采用基於規則方法或者概率統計學的方法進行模型構建,感興趣知識的獲取才更有意義。那么,是不是數據足夠大就是大數據了?是不是數據足夠多就構成語料庫了?往往一個模型好壞跟訓練數據或者檢驗數據的語料庫息息相關。本文筆者帶你走進語料庫的世界,在隨后模型構建過程避免一些語料注意事項,大大提升模型效率。(本文原創,轉載請注明出處:大數據之行,始於足下:談談語料庫知多少。)
1 語料庫語言學
- 大多數學者普遍認為:語言學的研究必須基於語言事實的基礎,必須詳盡的大量的占有材料,才有可能在理論上得出比較可靠的結論。
- 語料庫語言學:傳統語言材料的搜集整理和加工完全以手工進行,費時費力,直到計算機出現並隨之計算能力強大之后,原先手工的工作開始轉向計算機去做,后來逐漸的方法完善中,提出一些初步的理論,形成了語料學這樣一門語言學與計算機科學交叉的學科。
- 語料庫語言學的研究范疇:主要研究機器可讀自然語言文本的采集、存儲、檢索、統計、語法標注、句法語義分析,以及具有上述功能的語料庫在語言教學、語言定量分析、詞匯研究、詞語搭配研究、詞典編制、語法研究、語言文化研究、法律語言研究、作品風格分析、自然語言理解、機器翻譯等。
2 建立語料庫的意義
語料庫作為一個或者多個應用目標而專門收集的,有一定結構的、有代表的、可被計算機程序檢索的、具有一定規模的語料的集合。本質上講,語料庫實際上是通過對自然語言運用的隨機抽樣,以一定大小的語言樣本來代表某一研究中所確定的語言運用的總體。
3 語料庫研究的一些原則問題
3.1 語料庫划分與種類
① 時間划分:歷時語料庫和共時語料庫。
② 加工深度划分:標注語料庫和非標注語料庫
③ 結構划分:平衡結構語料庫和自然隨機結構語料庫
④ 表達形式划分:口語語料庫和文本語料庫
⑤ 語種划分:單語種語料庫和多語種語料庫(可比語料庫和平行語料庫)
⑥ 動態更新程度划分:參考語料庫和監控語料庫
3.2 構建語料庫的原則
語料庫應該具有代表性、結構性、平衡性、規模需求並制定語料的元數據規范,各個原則具體介紹如下:
① 代表性:在應用領域中,不是根據量而划分是否是語料庫,而是在一定的抽樣框架范圍內采集而來的,並且在特定的抽樣框架內做到代表性和普遍性。
② 結構性:有目的的收集語料的集合,必須以電子形式存在,計算機可讀的語料集合結構性體現在語料庫中語料記錄的代碼,元數據項、數據類型、數據寬度、取值范圍、完整性約束。
③ 平衡性:主要體現在平緩因子:學科、年代、文體、地域、登載語料的媒體、使用者的年齡、性別、文化背景、閱歷、預料用途(私信/廣告等),根據實際情況選擇其中一個或者幾個重要的指標作為平衡因子,最常見的平衡因子有學科、年代、文體、地域等。
④ 規模性:大規模的語料對語言研究特別是對自然語言研究處理很有用的,但是隨着語料庫的增大,垃圾語料越來越多,語料達到一定規模以后,語料庫功能不能隨之增長,語料庫規模應根據實際情況而定。
⑤ 元數據:元數據對於研究語料庫有着重要的意義,我們可以通過元數據了解語料的時間、地域、作者、文本信息等;還可以構建不同的子語料庫;除此外,還可以對不同的子語料對比;另外還可以記錄語料知識版權、加工信息、管理信息等。
注意:漢語詞與詞之間沒有空隙,不便於計算機處理,一般需要進行切詞和詞性標注。
4 語料標注的優缺點
① 優點: 研究方便。可重用、功能多樣性、分析清晰。
② 缺點: 語料不客觀(手工標注准確率高而一致性差,自動或者半自動標注一致性高而准確率差)、標注不一致、准確率低
總之,目前語料庫語言學主要研究機器可讀自然文本的采集、存儲、檢索、統計、自動切詞、詞性標注、語義標注等。
5 參考文獻
【1】 數據挖掘概念與技術(364--386) 韓家煒
【2】 自然語言處理簡明教程 馮志偉 著
【3】 統計自然語言處理基礎 (166—169) 宛春法等譯
6 自然語言相關系列文章
【自然語言處理:馬爾可夫模型(一)】:初識馬爾可夫和馬爾可夫鏈
【自然語言處理:馬爾可夫模型(二)】:馬爾可夫模型與隱馬爾可夫模型
【自然語言處理:馬爾可夫模型(三)】:向前算法解決隱馬爾可夫模型似然度問題
【自然語言處理:馬爾可夫模型(四)】:維特比算法解決隱馬爾可夫模型解碼問題(中文句法標注)
【自然語言處理:馬爾可夫模型(五)】:向前向后算法解決隱馬爾可夫模型機器學習問題
【自然語言處理:談談學習模型的評估(一)】:統計角度窺視模型概念
【自然語言處理:談談學習模型的評估(二)】:基於Data Mining角度的模型評估與選擇
【自然語言處理:談談學習模型的評估(三)】:基於NLP角度的模型評價方法
【自然語言處理:談談學習模型的評估(四)】:基於R語言的模型案例實戰
7 語料庫
聲明:關於此文各個篇章,本人采取梳理扼要,順暢通明的寫作手法。系統閱讀相關書目和資料總結梳理而成,旨在技術分享,知識沉淀。在此感謝原著無私的將其匯聚成書,才得以引薦學習之用。其次,本人水平有限,權作知識理解積累之用,難免主觀理解不當,造成讀者不便,基於此類情況,望讀者留言反饋,便於及時更正。本文原創,轉載請注明出處:大數據之行,始於足下:談談語料庫知多少。