一、課程介紹
斯坦福大學於2012年3月在Coursera啟動了在線自然語言處理課程,由NLP領域大牛Dan Jurafsky 和 Chirs Manning教授授課:
https://class.coursera.org/nlp/
以下是本課程的學習筆記,以課程PPT/PDF為主,其他參考資料為輔,融入個人拓展、注解,拋磚引玉,歡迎大家在“我愛公開課”上一起探討學習。
課件匯總下載地址:斯坦福大學自然語言處理公開課課件匯總
二、自然語言處理概覽——什么是自然語言處理(NLP)
1)相關技術與應用
- 自動問答(Question Answering,QA):它是一套可以理解復雜問題,並以充分的准確度、可信度和速度給出答案的計算系統,以IBM‘s Waston為代表;
- 信息抽取(Information Extraction,IE):其目的是將非結構化或半結構化的自然語言描述文本轉化結構化的數據,如自動根據郵件內容生成Calendar;
- 情感分析(Sentiment Analysis,SA):又稱傾向性分析和意見挖掘,它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,如從大量網頁文本中分析用戶對“數碼相機”的“變焦、價格、大小、重量、閃光、易用性”等屬性的情感傾向;
- 機器翻譯(Machine Translation,MT):將文本從一種語言轉成另一種語言,如中英機器翻譯。
- ... ...
2)發展現狀
- 基本解決:詞性標注、命名實體識別、Spam識別
- 取得長足進展:情感分析、共指消解、詞義消歧、句法分析、機器翻譯、信息抽取
- 挑戰:自動問答、復述、文摘、會話機器人
3)NLP主要難點——歧義問題
- 詞法分析歧義
- 分詞,如“嚴守一把手機關了”,可能的分詞結果“嚴守一/ 把/ 手機/ 關/ 了” 和“嚴守/ 一把手/ 機關/ 了”
- 詞性標注,如“計划”在不同上下文中有不同的詞性:“我/ 計划/v 考/ 研/”和“我/ 完成/ 了/ 計划/n”
- 語法分析歧義
- “那只狼咬死了獵人的狗”
- ”咬死了獵人的狗失蹤了”
- 語義分析歧義
- 機器翻譯:句子“At last, a computer that understands you like your mother”可以有多種含義,如下:
- 計算機會像你的母親那樣很好的理解你(的語言)
- 計算機理解你喜歡你的母親
- 計算機會像很好的理解你的母親那樣理解你
- 機器翻譯:句子“At last, a computer that understands you like your mother”可以有多種含義,如下:
- NLP應用中的歧義
- 音字轉換:拼音串“ji qi fan yi ji qi ying yong ji qi le ren men ji qi nong hou de xing qu”中的“ji qi”如何轉換成正確的詞條
4)為什么自然語言理解如此困難?
- 用戶生成內容中存在大量口語化、成語、方言等非標准的語言描述
- 分詞問題
- 新詞不斷產生
- 基本常識與上下文知識
- 各式各樣的實體詞
- ... ...
為了解決以上難題,我們需要掌握較多的語言學知識,構建知識庫資源,並找到一種融合各種知識、資源的方法,目前使用較多是概率模型(probabilistic model)或稱為統計模型(statistical model),或者稱為“經驗主義模型”,其建模過程基於大規模真實語料庫,從中各級語言單位上的統計信息,並且,依據較低級語言單位上的統計信息,運行相關的統計、推理等技術計算較高級語言單位上的統計信息。與其相對的“理想主義模型”,即基於Chomsky形式語言的確定性語言模型,它建立在人腦中先天存在語法規則這一假設基礎上,認為語言是人腦語言能力推導出來的,建立語言模型就是通過建立人工編輯的語言規則集來模擬這種先天的語言能力。
本課程主要側重於基於統計的NLP技術,如Viterbi、貝葉斯和最大熵分類器、N-gram語言模型等等。
三、參考資料
- Lecture Slides:Introduction
- http://en.wikipedia.org
- 關毅,統計自然語言處理基礎 課程PPT
- 趙妍研,文本情感分析綜述
- 劉群、王海峰、王惠臨、宗成慶、趙鐵軍、史曉東、朱靖波、陳家俊、張民,機器翻譯技術的進展與展望,中文信息學會成立三十周年學術會議,2011年12月4-5日,北京
轉載自:我愛公開課