小酌一下:Win10 解決fetch_20newsgroups下載速度巨慢


僅為個人查閱使用,如有錯誤還請指正。

最近在學機器學習,試着用朴素貝葉斯做一個分類問題,數據就用sklearn新聞數據集。

但是下載巨慢,沒耐心等。接下去就是一波操作,上籃成功。

因為版本之間可能存在差異,所以就不發數據集的安裝包了。

1)當你在運行程序的時候,控制台是這么輸出的

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)

2)默認在當前用戶下生成文件

cd C:\Users\73107\scikit_learn_data
可以看到20news_home這個文件,里面是20news-bydate.tar.gz這么一個安裝包。
請記住它的名字20news-bydate.tar.gz。
可以把這個安裝包刪除,程序也可以停止了。

3)打開運行時下載鏈接

https://ndownloader.figshare.com/files/5975967
下載安裝包,下載完畢之后。
該安裝包的名字改成上面說的那個名字(20news-bydate.tar.gz)。
並且把這個安裝包放到 C:\Users\73107\scikit_learn_data\20news_home里面。

4)打開運行程序的Python環境

Python環境別搞錯了,特別是用虛擬環境的。別亂搞。
cd \site-packages\sklearn\datasets
打開twenty_newsgroups.py文件
把第一個紅框注釋(其實就是原本用來下載的代碼)。
寫上第二個紅框,也就是下載安裝包的路徑。

5)運行程序,完美解決。
程序會自動解壓20news-bydate.tar.gz。
然后刪除,最后生成一個緩存文件20news-bydate.pkz。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM