Python爬虫——解决urlretrieve下载不完整问题且避免用时过长

本文转载自查看原文 2018-08-08 20:47 2131

https://blog.csdn.net/jclian91/article/details/77513289

但是经笔者测试，下载文件出现urllib.ContentTooShortError且重新下载文件会存在用时过长的问题，而且往往会尝试好几次，甚至十几次，偶尔会陷入死循环，这种情况是非常不理想的。为此，笔者利用socket模块，使得每次重新下载的时间变短，且避免陷入死循环，从而提高运行效率。
　　以下为代码：

import socket
import urllib.request
#设置超时时间为30s socket.setdefaulttimeout(30) #解决下载不完全问题且避免陷入死循环 try: urllib.request.urlretrieve(url,image_name) except socket.timeout: count = 1 while count <= 5: try: urllib.request.urlretrieve(url,image_name) break except socket.timeout: err_info = 'Reloading for %d time'%count if count == 1 else 'Reloading for %d times'%count print(err_info) count += 1 if count > 5: print("downloading picture fialed!")

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 idea中maven下载jar包不完整问题 idea中maven下载jar包不完整问题 eclipse解决Maven新建项目目录不完整的问题解决InputStream中数据读取不完整问题 IDEA解决新建maven项目目录不完整的问题 ps 命令显示不完整的问题解决idea中maven项目的pom文件不会自动下载jar包问题 + 更新不完整依赖命令解决idea中maven项目的pom文件不会自动下载jar包问题 + 更新不完整依赖命令 C++问题--fread文件读不完整问题解决解决PHP使用POST提交数据不完整,数据不全的问题