因為工作的原因,近段時間開始接觸jsoup。大概也弄清了用java來爬網頁是怎樣一個過程。特此,寫篇日志以便他日方便查看。
Jsoup是一個java平台的能夠對xml文檔結構的文檔進行解析。有點類似於dom4j吧。但是dom4j是利用流進行內容解析,遇到“《》”的標記進行節點與否的區分。而jsoup之前看了篇文章介紹,存儲的方式更接近於java對象的方式。(我個人的看法吧,也不清楚是否准確,望指點!)。
模擬登錄的過程也是很簡單的。只需要通過網頁工具查看目標網站需要提交到的登錄地址,再捕獲下提交的數據。就大概知道是需要提交什么東西了。需要注意的點是,有的網站是進行redirect重定向的,網頁工具在network查看提交數據時為避免跳轉導致提交的那條數據過快而被刷掉。可以打開debug中network中的Preserve log。
之后因為java進行測試如果覺得麻煩的話,可以下載個http請求模擬器。推薦驕陽的模擬器。
地址:http://www.crsky.com/soft/34385.html
使用這個模擬器需要注意的點:
提交數據:可以用&進行提交 例如這樣子 username=admin&password=123456&
cookie 用;來分隔 cookie1=1;cookie=2;
后台jsoup中connection的幾個方法。
con.validateTLSCertificates(false); 是否進行tls證書驗證
con.ignoreContentType(true);是否忽略contentType
con.followRedirects(false);是否進行自動處理redirect
con.cookies(cookies); 帶上cookie
con.data(data);帶上data