解决fetch_20newsgroups下载速度巨慢


控制台的输出是:

Downloading 20news dataset. This may take a few minutes. Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


默认在当前用户下生成文件

C:\Users\funy(用户名)\scikit_learn_data

首先手动下载这个数据包

 http://qwone.com/~jason/20Newsgroups/20news-bydate.tar.gz

 

把下载的20news-bydate.tar.gz放到上述文件夹中

 

打开twenty_newsgroups.py文件(在fetch_20newsgroups函数名上,右键转到定义即可找到)

把第一个红框注释(其实就是原本用来下载的代码)。
写上第二个红框,也就是下载安装包的路径。

 

运行程序,完美解决。

程序会自动解压20news-bydate.tar.gz。

然后删除,最后生成一个缓存文件20news-bydate.pkz。

 

在Linux系统也差不多,我是单独建了一个文件夹,然后上传上述的20news-bydate.tar.gz数据文件,程序执行后会删除原来的压缩包。

操作流程如下所示:

 

 

参考资料:

http://www.mamicode.com/info-detail-2749128.html

https://blog.csdn.net/u012620645/article/details/47080745

——


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM