快速了解什么是自然語言處理


快速了解什么是自然語言處理

白寧超

2016年2月29日19:13:23

摘要:自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學等於一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有着密切的聯系,但又有重要的區別。自然語言處理並不是一般地研究自然語言,而在於研制能有效地實現自然語言通信的計算機系統,特別是其中的軟件系統。因而它是計算機科學的一部分。(本文原創,分享供於學習,轉載標明出處:快速了解什么是自然語言處理

相關文章


【文本處理】自然語言處理在現實生活中運用

【文本處理】多種貝葉斯模型構建及文本分類的實現

【文本處理】快速了解什么是自然語言處理

【文本處理】領域本體構建方法概述

【文本挖掘(1)】OpenNLP:駕馭文本,分詞那些事

【文本挖掘(2)】【NLP】Tika 文本預處理:抽取各種格式文件內容

【文本挖掘(3)】自己動手搭建搜索工具

1 計算機對自然語言處理的過程

1.1把需要研究是問題在語言上建立形式化模型,使其可以數學形式表示出來,這個過程稱之為"形式化"

1.2把數學模型表示為算法的過程稱之為"算法化"

1.3根據算法,計算機進行實現,建立各種自然語言處理系統,這個過程是"程序化"

1.4對系統進行評測和改進最終滿足現實需求,這個過程是"實用化"

2 自然語言處理涉及的知識領域

語言學、計算機科學(提供模型表示、算法設計、計算機實現)、數學(數學模型)、心理學(人類言語心理模型和理論)、哲學(提供人類思維和語言的更深層次理論)、統計學(提供樣本數據的預測統計技術)、電子工程(信息論基礎和語言信號處理技術)、生物學(人類言語行為機制理論)。故其為多邊緣的交叉學科

3 自然語言處理涉及的范圍

3.1語音的自動合成與識別、機器翻譯、自然語言理解、人機對話、信息檢索、文本分類、自動文摘等等,總之分為四大方向:

  • 語言學方向
  • 數據處理方向
  • 人工智能和認知科學方向
  • 語言工程方向

3.2也可細分為13個方面

  • 口語輸入語音識別、信號表示、魯棒的語音識別、語音識別中的隱馬爾科夫模型方法、語言模型、說話人識別、口語理解
  • 書面語輸入文獻格式識別光學字符識別(OCR):印刷體識別/手寫體識別手寫界面手寫文字分析
  • 語言分析理解小於句子單位的處理語法的形式化、針對基於約束的語法編寫的詞表、計算語義學句子建模和剖析技術、魯棒的剖析技術
  • 語言生成句法生成、深層生成
  • 口語輸入技術合成語音技術語音合成的文本解釋口語生成
  • 話語分析與對話:對話建模、話語建模口語對話系統
  • 文獻自動處理文獻檢索、文本解釋:信息抽取文本內容自動歸納、文本寫作和編輯的計算機支持、工業和企業中使用的受限語言
  • 多語問題的計算機處理機器翻譯人助機譯機助人譯多語言信息檢索多語言語音識別自動語種驗證
  • 多模態的計算機處理:空間和時間表示方法、文本與圖像處理、口語與手勢的模態結合、口語與面部信息的模態結合:面部運動和語音識別
  • 信息傳輸和信息存儲語音壓縮語音品質的提升
  • 自然語言處理中的數學方法統計建模和分類的數學理論數字信號處理技術、剖析算法的數學基礎研究、神經網絡有限狀態分析技術語音和語言處理中的最優化技術和搜索技術
  • 語言資源書面語料庫口語語料庫、機器詞典與詞網的建設、術語編撰和術語數據庫網絡數據挖掘和信息提取
  • 自然語言處理系統的評測面向任務的文本分析評測機器翻譯系統和翻譯工具的評測、大覆蓋面的自然語言剖析器的評測、語音識別:評估和評測、語音合成評測、系統的可用性和界面的評測、語音通信質量的評測文字識別系統的評測

 4 自然語言處理的發展的幾個特點

  • 基於句法-語義規則的理性主義方法受到質疑,隨着語料庫建設和語料庫語言學 的崛起,大規模真實文本的處理成為自然語言處理的主要戰略目標。
  • 自然語言處理中越來越多地使用機器自動學習的方法來獲取語言知識。
  • 統計數學方法越來越受到重視。
  • 自然語言處理中越來越重視詞匯的作用,出現了強烈的"詞匯主義"的傾向。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM