java根據URL獲取HTML內容


之前我寫腳本,是想獲取HTML內容的.

但是呢...一方面編碼困擾着我,於是我寫了這個:

java根據URL獲取網頁編碼

然后呢,每個網站是不是GZIP還得判斷,賊麻煩...

但是沒辦法啊,麻煩也得寫唄,業務需求啊...

正當我寫着方法,把HTML轉為Document對象,進行下一步解析標簽時...

我發現了...

這不是明明可以直接解析url的嘛,那我還費什么勁找編碼,費什么勁確定是不是GZIP啊...直接用Jsoup就解決了啊...

所以,進入正題

----------------------上面都是廢話-------------------------

引入Jsoup(jar包自己找,以下是maven項目演示)

<!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
        <dependency>
            <groupId>org.jsoup</groupId>
            <artifactId>jsoup</artifactId>
            <version>1.10.2</version>
        </dependency>

使用這個方法就行:

Document doc= Jsoup.parse(new URL("你要獲取的網址"),(int型的等待超時毫秒數));

想要String型的再接:

String html = doc.toString();

用的方法是Jsoup的,用來解析文本賊好用(如從HTML中找出a標簽啊啥的)

如果不會的話建議去學學

或者你們誰還有更好的解析文本的包或者庫告訴我,我學學


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM