wget 抓取网页所有的内容


wget的用途

在进行爬虫分析的时候,有些时候把网站所有的内容抓取下来进行断点调试,js解析都更加方便

wget使用方法

  1. 快速抓取一个网页
wget -c -r -npH -k http://www.baidu.com
  1. 参数分析
-c:断点续传 
-r:递归下载 
-np:递归下载时不搜索上层目录 
-nd:递归下载时不创建一层一层的目录,把所有文件下载当前文件夹中 
-p:下载网页所需要的所有文件(图片,样式,js文件等) 
-H:当递归时是转到外部主机下载图片或链接 
-k:将绝对链接转换为相对链接,这样就可以在本地脱机浏览网页了

wget高级用法

  1. 请求网页时添加cookie参数

首先设定一下cookie的值(也可以直接拼接)

cookie=****

然后

wget --header="Cookie:$cookie" "链接地址"
  1. 关闭rebot协议下载网页
wget -r -p -k -np -nc -e robots=off http://www.example.com/mydir/
  1. 下载到指定的文件夹里
wget --no-check-certificate -E -H -k -K -p -e robots=off -Pgame  -i ./list.txt


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM