原文:基於《美國當代英語語料庫COCA詞頻20000》提取的純單詞文件

最近在背單詞,為了能提高效率,找到一個比較有名的 美國當代英語語料庫COCA詞頻 來源應該是:http: www.wordfrequency.info ,當然是收費的。 免費的可以在這里下載pdf文件:http: vdisk.weibo.com s ctvvyfhPYLfj 由於是pdf文件,且包含大量其他不太有用的信息,就想到提純。 花了半小時寫了個小程序,對pdf文件進行提煉。 這個下載htt ...

2017-04-01 17:50 0 15161 推薦指數:

查看詳情

【數據預處理】TIMIT語料庫WAV文件轉換

1 問題描述 這兩天復現代碼。先構造數據集,純凈語音、不同噪聲、不同SNR的混合語音。其中純凈語音由兩部分組成,IEEE corpus和TIMIT。 一開始我用MATLAB中的audioread讀取音頻文件,合成后用audiowrite保存下來。沒有任何問題。 后來,師姐讓我換成python ...

Tue Feb 26 02:08:00 CST 2019 0 920
【轉】國內可用免費語料庫

中國自然語言開源組織:http://www.nlpcn.org/ (一) 國家語委 1國家語委現代漢語語料庫http://www.cncorpus.org/ 現代漢語通用平衡語料庫現在重新開放網絡查詢了。重開后的在線檢索速度更快,功能更強,同時提供檢索結果下載。現代漢語語料庫在線 ...

Wed Apr 22 01:02:00 CST 2015 0 7911
數據挖掘-語料庫的構建

語料庫:是我們要分析的所有文檔的集合 使用搜狗實驗室提供的語料庫,里面有一個classlist,里面內容是文件的編號及分類名稱 1、導入模塊 使用os.walk傳入這個目錄作為參數,遍歷該文件夾下的全部文件,該方法返回一個Truple的數組,第一個root是文件所在目錄 ...

Tue Oct 02 04:44:00 CST 2018 0 1119
NLP&Python筆記——語料庫

:nltk.corpus.words.words() 詞匯語料庫是Unix 中的/usr/dict/words 文件,被一些拼寫檢查程序使用。下面這 ...

Fri Jul 20 05:56:00 CST 2018 0 792
解析搜狗新聞語料庫

最近收到很多要語料的,我把關於這個的都放在百度雲盤了。鏈接: https://pan.baidu.com/s/1tZj8MDiPfCT2SYBvClQbew 提取碼: krbd ;大家有需要就從里面找吧!不零碎得回復大家了。 我的天,清明節三天假期,我竟然除了逛街閑游,只做了一件事 ...

Wed Apr 05 18:28:00 CST 2017 6 7394
自然語言處理——NLTK中文語料庫語料庫

Python NLTK中包含着大量的語料庫,但是大部分都是英文,不過有一個Sinica(中央研究院)提供的繁體中文語料庫,值得我們注意。 在使用這個語料庫之前,我們首先要檢查一下是否已經安裝了這個語料庫。 >>>import nltk >>> ...

Fri Sep 23 23:27:00 CST 2016 0 7949
英語60000詞頻與高考單詞范圍

語言環境 學習英語大家都說需要語言環境。其實每個人只要願意都可以有自己的英語環境,簡單一個:英語電影。另一個難點是不是記憶單詞呢?起碼我是。為此我報了一些英語的學習班,花了萬把元錢吧。現在總算有點起色了。也正因此又愛看英語電影了。所以我的英語的學習就是詞根背單詞+英語電影。 APP收詞 ...

Thu Aug 15 21:18:00 CST 2019 0 439
2萬常用英語單詞詞頻統計

常用2萬英語單詞中,各種長度英文單詞數量統計 單詞長度 單詞數量18 - 216 - 215 - 514 - 3313 - 9912 - 15011 - 30610 - 5199 - 6788 - 8877 - 10386 - 10645 - 9684 - 8293 - 2872 - 371 ...

Wed Dec 01 03:49:00 CST 2021 0 1409
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM