1.文本摘要和信息提取


1.文本摘要和信息提取

文本摘要和信息提取處理試圖充巨大的文本語料庫中提取關鍵的重要概念和主題,本質上是在此過程中對它們進行縮減。在深入了解概念和技術之前,應該先了解對文本概要的需求。信息過載(information overload)的概念是文本摘要需求背后的主要原因之一。

由於印刷和口頭媒體占據主導,有了大量的書籍、文章、音頻和視頻。這一切在公元前三或四時機就開始了,當時人們查閱大量的數據,因為書籍的產生似乎沒有盡頭,而且這種信息的過載常常遭遇到反對。文藝復興使其,大約在公元 1440 年 Guenberg 發明了印刷術,使書籍、文稿、文章和小冊子得以大量生產。這大大增加了信息過載,為此學者控訴;額這樣的信息過剩情形,它使信息變得非常難以使用、處理和管理。

在 20 世紀,計算機和技術的進步迎來了數字時代,並最終產生了互聯網。互聯網為社會媒體、新聞網站、電子郵件、即時通信功能開啟了充滿生產和消費信息的各種可能性的窗口。反過來這又導致了信息量的爆炸式增長和不需要的垃圾郵件信息、無用的狀態和推文——乃至導致在網絡上發布更多不重要的內容。

那么,信息裹扎就意味着存在過多的數據或信息,消費者在作出知情決策會覺得難以處理。一旦系統輸入的信息量超過系統的處理能力時,便會發生過載。人類具有有限的人之處理能力,並且還以這樣一種方式進行連接,因為思維常常會隨時徘徊游離,是的我們不能花很長時間來閱讀單個的信息或數據。因此,當獲得信息后做錯決定性策略時信息會減少。

到目前為止可能已經才到會在哪里用到這個概念以及為什么需要總結和提取信息。企業在作出關鍵和明智的決策時會蓬勃發展,通常它們擁有大量的數據和信息。但從中獲得洞察力不是一件非常容易的事情,因為往往不清楚所有數據的處理方式,所以自動化是困難的。管理人員很少有時間聽長篇大論,或者瀏覽重要事件的重要信息頁面。摘要和信息提取的思想史得到大量信息文檔的重要論題和主題,並將其總結為可以輕松閱讀、理解和解讀的簡短內容,從而簡化了在更短的時間內作出良好決策的過程。

需要能對文本數據執行此操作的有效和可擴展的流程和技術、而最流行的技術是 關鍵短語提取(keyphrase extraction)、主題建模(topic modeling)和 自動文檔摘要(automated document summarization)。前兩種技術技術更多的是從文檔中以概念、標題和主題的形式提取關鍵信息,從而可以縮略文檔;最后一種技術是將大文本文檔總結成豎行,從而提供該文件正在試圖傳達的關鍵內容或信息,現在將簡要介紹一下每一種技術所涉及的要求及其范圍:

  • 關鍵短語提取:也許是三種技術中最簡單的。它涉及從包含其主體概念或主題的文本文檔或語料庫中提取關鍵字或短語。它可以說是主題建模的一種簡單形式。可能已經在研究論文中或者甚至在網絡商店上的一些產品中看到過所描述的關鍵字或短語。它們用幾個單詞或短語來描述對象,突出其主要思想或概念。
  • 主題建模:通常涉及使用統計和數學建模技術從文檔語料庫中提取核心主題、題材或概念。請注意,這里強調文檔語料庫,是因為你擁有的文檔集更多樣,就可以生成更多主題或概念——與單個文檔不同,如果談及的是單個概念,將不會收到太多的主題或概念。主題模型通常稱為 概率統計模型(probabilistic statistical model),其適應特定的統計技術,包括奇異值分解和隱含(dirichlet)分布式來發現在產生主題和概念的文本數據中的連接淺語義結構。它們廣泛用於文本分析甚至生物信息學。
  • 自動文本摘要:是使用基於統計和機器學習技術的計算機程序或算法來概括文檔或文檔語料庫的過程,以便我們可以獲得包含原始文檔或語料庫的所有基本概念和主題的簡短摘要。可用各種各樣的技術構建自動化文本摘要器,包括各種基於提取和概括的技術。所有這些算法背后的關鍵思想是找到原始數據集的代表性子集,使得從語義和概念角度來看數據集的核心要素在該子集中。文本摘要通常涉及從單個文檔中提取和構建執行摘要。但是,相同的算法可以擴展到多個文檔,雖然通常不將多個不同文檔結合在一起,這可能將違背算法的初衷。相同的概念不應僅用於文本分析,還適用於圖像和視頻摘要。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM