《2018自然語言處理研究報告》整理(附報告)


這篇文章是閱讀AMiner《2018自然語言處理研究報告》前幾篇內容整理所得。

一. 自然語言處理概述

自然語言處理就是要計算機理解自然語言,計算機要理解自然語言文本的意義,最后能以自然文本形式來表達意圖。處理過程主要是理解、轉化、生成。

自然語言的理解和分析是一個層次化的過程,許多語言學家把這一過程分為五個層次, 可以更好地體現語言本身的構成,五個層次分別是

語音分析、詞法分析、句法分析、語義分析和語用分析。

自然語言處理的研究可以分為基礎性研究和應用性研究兩部分,語音和文本是兩類 研究的重點。

ACL、EMNLP、NAACL、COLING 4個會議是自然語言處理最重要的4個會議。

二. 自然語言處理發展歷程

1950年“圖靈測試”到70年代前,這時的自然語言處理停留在理性主義思潮階段,以基於規則的方法為代表。

70年代后互聯網高速發展,自然語言處理思潮由經驗主義向理性主義過渡,基於統計的方法逐漸代替了基於規則的方 法。

從 2008 年到現在,在圖像識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來做自然語言處理研究。

三. 自然語言處理技術

截屏2020-01-11下午4.44.27

自然語言處理的基礎研究方面,自然語言的基礎技術包括詞匯、短語、 句子和篇章級別的表示,分詞、句法分析和語義分析以及語言認知模型和知識圖譜等。

基礎技術

  1. 詞法分析
    主要任務是詞性標注和詞義標注。

  2. 句法分析
    主要任務是判斷句子的句法結構和組成句子的各成分,明確它們之間的相互關系。

  3. 語義分析
    主要任務是根據句子的句法結構和句子中每個實詞的詞義推導出能夠反映這個句子意義的形式化表示。

  4. 語用分析
    語用指人對語言的具體運用,主要任務是研究和分析語言使用者的真正用意,它與語境、語言使用者的知識涵養、言語行為、想法和意圖是分不開的,是對自然語言的深層理解。情景語境和文化語境是語境分析主要涉及的方面。

  5. 篇章分析
    將研究擴展到句子的界限之外,主要任務是對段落和整篇文章進行理解和分析。

  6. 知識圖譜
    表示知識,描述客觀世界的概念、實體、事件等之間關系的一種表示形式。知識圖譜在表現形式上與語義網絡比較類似,不同的是,語義網絡側重於表示概念與概念之間的關系,而知識圖譜更側重於表述實體之間的關系。現在的知識網絡被用來泛指大規模的知識庫。

除此之外,自然語言的基礎研究還涉及詞義消歧、指代消解、命名實體識別等方面的研究。

應用技術

  1. 機器翻譯
    指運用機器,通過特定的計算機程序將一種書寫形式或聲音形式的自然語言,翻譯成另一種書寫形式或聲音形式的自然語言。按照媒介可以將機器翻譯分為文本翻譯、語音翻譯、圖像翻譯以及視頻和 VR 翻譯等。

  2. 信息檢索
    從相關文檔集合中查找用戶所需信息的過程。先將信息按一定的方式組織和存儲起來,然后根據用戶的需求從已經存儲的文檔集合當中找出相關的信息,這是廣義的信息檢索。信息檢索包括“存”與“取”兩個方面,對信息進行收集、標引、描述、組織,進行有 14 序的存放是“存”。按照某種查詢機制從有序存放的信息集合(數據庫)中找出用戶所需信息或獲取其線索的過程是“取”。搜索引擎可以看成是一種特殊且重要的信息檢索系統。

  3. 情感分析
    又稱意見挖掘,是指通過計算技術對文本的主客觀性、觀點、情緒、極性的挖掘和分析,對文本的情感傾向做出分類判斷。情感分析是自然語言理解領域的重要分支,涉及統計學、語言學、心理學、人工智能等領域的理論與方法。情感分析在電商評價、互聯網輿情分析、選舉預測等地方發揮重要作用。

  4. 自動問答
    指利用計算機自動回答用戶所提出的問題以滿足用戶知識需求的任務。問答系統是信息服務的一種高級形式,系統反饋給用戶的不再是基於關鍵詞匹配排序的文檔列表,而是精准的自然語言答案,這和搜索引擎提供給用戶模糊的反饋是不同的。

  5. 自動文摘
    運用計算機技術,依據用戶需求從源文本中提取最重要的信息內容,進行精簡、提煉和總結,最后生成一個精簡版本的過程。生成的文摘具有壓縮性、內容完整性和可讀性。

  6. 社會計算
    也稱計算社會學,是指在互聯網的環境下,以現代信息技術為手段,以社會科學理論為指導,幫助人們分析社會關系,挖掘社會知識,協助社會溝通,研究社會規律,破解社會難題的學科。社會媒體是社會計算的主要工具和手段,社會網絡是一種關系網絡,通過個人與群體及其相互之間的關系和交互,發現它們的組織特點、行為方式等特征,進而研究人群的社會結構,以利於他們之間的進一步共享、交流與協作。

  7. 信息抽取
    主要是指從文本中抽取出特定的事實信息。與之關系密切的是信息檢索,信息檢索主要是要從大量的文檔中找到用戶所需要的文檔,而信息抽取是獲取用戶感興趣或所需要的事實信息,這就需要對文本有深入的理解和分析。信息檢索的結果可以作為信息抽取的范圍,提高效率,信息抽取用於信息檢索可以提高檢索質量,更好地滿足用戶的需求。

四. 自然語言處理機構

下面列舉的是自然語言處理方向研究較好的一些機構。

工業界

國外: google、微軟亞洲研究院、Facebook

國內:百度、阿里、騰訊、京東、科大訊飛

國外學術界

截屏2020-01-11下午5.09.52

從國家來看,美國是自然語言處理研究學者聚集 最多的國家,英國、德國、加拿大和意大利緊隨其后;從地區來看,美國東部是自然語言處理人才的集中地,而西歐、美國西部等其他先進地區也吸引了大量自然語言處理的研究者。

國內學術界

  • 清華大學
  • 北京大學
  • 中科院
  • 哈爾濱工業大學
  • 復旦大學
  • 蘇州大學


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM