僅為個人查閱使用,如有錯誤還請指正。
最近在學機器學習,試着用朴素貝葉斯做一個分類問題,數據就用sklearn新聞數據集。
但是下載巨慢,沒耐心等。接下去就是一波操作,上籃成功。
因為版本之間可能存在差異,所以就不發數據集的安裝包了。
1)當你在運行程序的時候,控制台是這么輸出的
Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)
2)默認在當前用戶下生成文件
cd C:\Users\73107\scikit_learn_data
可以看到20news_home這個文件,里面是20news-bydate.tar.gz這么一個安裝包。
請記住它的名字20news-bydate.tar.gz。
可以把這個安裝包刪除,程序也可以停止了。
3)打開運行時下載鏈接
https://ndownloader.figshare.com/files/5975967
下載安裝包,下載完畢之后。
該安裝包的名字改成上面說的那個名字(20news-bydate.tar.gz)。
並且把這個安裝包放到 C:\Users\73107\scikit_learn_data\20news_home里面。
4)打開運行程序的Python環境
Python環境別搞錯了,特別是用虛擬環境的。別亂搞。
cd \site-packages\sklearn\datasets
打開twenty_newsgroups.py文件
把第一個紅框注釋(其實就是原本用來下載的代碼)。
寫上第二個紅框,也就是下載安裝包的路徑。
5)運行程序,完美解決。
程序會自動解壓20news-bydate.tar.gz。
然后刪除,最后生成一個緩存文件20news-bydate.pkz。