Python自然語言處理(1):初識NLP
自然語言處理(Natural Language Processing,NLP):計算機科學領域和人工智能領域中的一個重要方向。它研究實現人與計算機之間用自然語言進行有效通信的各種理論和方法,涉及所有用計算機對自然語言進行的操作。
NLP的技術應用日益廣泛。例如:收集和手持電腦對輸入法聯想提示和手寫識別的支持;網絡搜索引擎能夠搜索到非結構化文本中的信息;機器翻譯能把中文文本翻譯成西班牙文。通過提供更自然的人機界面和獲取存儲信息的高級手段,語言處理正在這個多語種的信息社會中扮演着更核心的角色。
Python的安裝
之前介紹過安裝步驟,這里先略過。詳情戳這里:Python學習總結之一--基礎篇
NLTK的安裝
NLTK:Natural Language Toolkit(自然語言工具包)。我們可以從http://www.nltk.org上免費下載符合自己操作系統的版本。下載完成后,跟着步驟直接安裝 。
Python版本要求
然后我們在Python解釋器里輸入代碼,下載我們后面學習時需要的數據。
首先,我們輸入import nltk成功時就說明我們的nltk安裝成功。但是很遺憾,這TM是個問題啊,自己下午搞了很久,下載了好幾次都沒有成功,我也不知道是怎么回事,網上查找到了一些資源,大家可以在這個博客里找到下載數據的地方。然后自行解壓corpora文件里的壓縮文件即可。
當你輸入代碼可以出現上圖所示的text1到text9內容的時候,說明你的nltk_data下載成功。