原文:NLTK學習筆記(三):NLTK的一些工具

主要總結一下簡單的工具:條件頻率分布 正則表達式 詞干提取器和歸並器。 條件分布頻率 自然語言學習 很多地方都用到了條件分布頻率,nltk提供了兩種常用的接口:FreqDist 和 ConditionalFreqDist 。后面很多都會用到這兩種方法,特別是第二個。因為第二個更符合定義,會智能的找到條件。 然后根據繪圖的庫,可以做出來很漂亮的圖形。 簡單的FreqDist 函數接收list類型的 ...

2017-06-10 12:56 0 3455 推薦指數:

查看詳情

jieba、NLTK學習筆記

  中文分詞 - jiebaimport re import jieba news_CN = ''' 央視315晚會曝光湖北省知名的神丹牌、蓮田牌“土雞蛋”實為普通雞蛋冒充,同時在商標上玩 ...

Thu Aug 08 19:19:00 CST 2019 0 388
NLTK學習筆記(四):自然語言處理的一些算法研究

自然語言處理中算法設計有兩大部分:分而治之 和 轉化 思想。一個是將大問題簡化為小問題,另一個是將問題抽象化,向向已知轉化。前者的例子:歸並排序;后者的例子:判斷相鄰元素是否相同(與排序)。 這次總結的自然語言中常用的一些基本算法,算是入個門了。 遞歸 使用遞歸速度 ...

Tue Jun 13 05:33:00 CST 2017 1 1261
分詞用到的一些方法和工具--NLTK一些分詞方法

這些對象均來自nltk.tokenize庫 1. word_tokenize   導入nltk的tokenize庫后,tokens = nltk.word_tokenize(sentence)語句進行分詞操作,sentence為待處理的字符串。返回一個列表。   該方法要求被處理的字符串 ...

Tue Jul 24 08:20:00 CST 2018 0 3023
NLTK學習筆記(一):語言處理和Python

目錄 目錄 目錄 nltk資料下載 文本和詞匯 搜索文本 計數詞匯(去重、定位) 詞鏈表 自然語言簡單數學統計 頻率分布 細粒度的選擇詞 ...

Thu Jun 08 00:49:00 CST 2017 2 3904
NLTK學習筆記(五):分類和標注詞匯

目錄 詞性標注器 標注語料庫 表示已經標注的標識符:nltk.tag.str2tuple('word/類型') 讀取已經標注的語料庫 名詞、動詞、形容詞等 嘗試找出每個名詞類型中最頻繁的名詞 探索已經標注的語料庫 ...

Tue Jun 13 08:05:00 CST 2017 0 3501
NLTK學習筆記(七):文本信息提取

目錄 實體識別:分塊技術 分塊語法的構建 樹狀圖 IOB標記 開發和評估分塊器 命名實體識別和信息提取 如何構建 ...

Tue Jun 20 06:15:00 CST 2017 0 7437
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM