利用jsoup進行模擬登錄

本文轉載自查看原文 2016-07-29 15:12 6238

因為工作的原因，近段時間開始接觸jsoup。大概也弄清了用java來爬網頁是怎樣一個過程。特此，寫篇日志以便他日方便查看。

　　Jsoup是一個java平台的能夠對xml文檔結構的文檔進行解析。有點類似於dom4j吧。但是dom4j是利用流進行內容解析，遇到“《》”的標記進行節點與否的區分。而jsoup之前看了篇文章介紹，存儲的方式更接近於java對象的方式。（我個人的看法吧，也不清楚是否准確，望指點！）。

　　模擬登錄的過程也是很簡單的。只需要通過網頁工具查看目標網站需要提交到的登錄地址，再捕獲下提交的數據。就大概知道是需要提交什么東西了。需要注意的點是，有的網站是進行redirect重定向的，網頁工具在network查看提交數據時為避免跳轉導致提交的那條數據過快而被刷掉。可以打開debug中network中的Preserve log。

之后因為java進行測試如果覺得麻煩的話，可以下載個http請求模擬器。推薦驕陽的模擬器。

地址：http://www.crsky.com/soft/34385.html

使用這個模擬器需要注意的點：

提交數據：可以用&進行提交例如這樣子 username=admin&password=123456&

cookie 用;來分隔 cookie1=1;cookie=2;

后台jsoup中connection的幾個方法。

con.validateTLSCertificates(false); 是否進行tls證書驗證

con.ignoreContentType(true);是否忽略contentType

con.followRedirects(false);是否進行自動處理redirect

con.cookies(cookies); 帶上cookie

con.data(data);帶上data

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 利用Jsoup模擬跳過登錄爬蟲獲取數據 Java丨jsoup網絡爬蟲模擬登錄思路解析 HttpClient + Jsoup模擬登錄教務處並獲取課表利用Jmeter模擬Github登錄利用scrapy模擬登錄知乎利用Python模擬GitHub登錄如何利用UCenter進行單點登錄 java爬蟲（三）利用HttpClient和Jsoup模擬網頁登陸（無驗證碼） 2020.10.20 利用POST請求模擬登錄知乎利用phantomjs模擬QQ自動登錄