之前我寫腳本,是想獲取HTML內容的.
但是呢...一方面編碼困擾着我,於是我寫了這個:
java根據URL獲取網頁編碼
然后呢,每個網站是不是GZIP還得判斷,賊麻煩...
但是沒辦法啊,麻煩也得寫唄,業務需求啊...
正當我寫着方法,把HTML轉為Document對象,進行下一步解析標簽時...
我發現了...

這不是明明可以直接解析url的嘛,那我還費什么勁找編碼,費什么勁確定是不是GZIP啊...直接用Jsoup就解決了啊...
所以,進入正題
----------------------上面都是廢話-------------------------
引入Jsoup(jar包自己找,以下是maven項目演示)
<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup --> <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.2</version> </dependency>
使用這個方法就行:
Document doc= Jsoup.parse(new URL("你要獲取的網址"),(int型的等待超時毫秒數));
想要String型的再接:
String html = doc.toString();
用的方法是Jsoup的,用來解析文本賊好用(如從HTML中找出a標簽啊啥的)
如果不會的話建議去學學
或者你們誰還有更好的解析文本的包或者庫告訴我,我學學
