最近在做城覓網的信息抓取,發現城覓網上海與北京的url是一樣的。那怎樣才確定信息的來源呢?折騰了半天,才發現城覓網是使用cookie的,如果你把網站的cookie禁用了,就無法在上海與北京之間切換了。
於是便想到了請求時將cookie帶上。方法如下:
第一步,拿到上海或者北京的cookie
Map<String, String> cookies = null; Response res = Jsoup.connect("http://www.chengmi.com/shanghai").timeout(30000).execute(); cookies = res.cookies();
第二步,抓取網頁信息時將cookie信息帶上
Document doc = null; doc = Jsoup.connect(url).cookies(cookies).timeout(30000).get();
這樣就解決了抓取網頁需要cookie的問題