爬取微博的數據時別人用的是FM.view方法傳遞html標簽那么jsoup怎么解析呢

本文轉載自查看原文 2017-10-29 11:34 1116 Java

使用JSOUP就行這里給出點思路

我只做了自己的首頁和其他人的微博首頁的抓取其他的抓取沒嘗試(不好意思比較懶...）

首先是利用JSOUP進行登陸獲取頁面看了下微博的登陸表格發現用了ajax的方式所以代碼獲取cookie有點難

所以偷了個懶就用IE的開發者工具獲取到了cookie 獲取到的cookie要寫成map的形式然后用代碼:

Java代碼

Response res=Jsoup.connect("http://weibo.com").cookies(map).method(Method.POST).execute();
String s=res.body();

得到了下發現挺多的:

可以自己寫段腳本來打印map.put(xxx,xxx)

我這里用scala寫了段用java寫一樣的無所謂:

Scala代碼

s.split("; ").foreach(s => {val x=s.split("=");println(s"""map.put("${x(0)}","${x(1)}");""")});

最后得到的body 嗯......是一大堆的script標簽最上面是微博的固定的頂上那一欄的內容(導航條的內容)

lz嘗試了下發現需要的是 <script>FM.view 中一個id為pl_content_homeFeed的他就是首頁的內容

然后lz進行了下簡單的處理沒有用正則因為....額...寫不好:

Java代碼

String s=res.body();
//System.out.println(s);
String[] ss=s.split("<script>FM.view");
int i=0;
//pl_content_homeFeed
// for(String x:ss){
// System.out.println(i++ + "======================================");
// System.out.println(x.substring(0, x.length()>100?100:x.length()));
// System.out.println("===========================================");
// }
String content=ss[8].split("\"html\":\"")[1].replaceAll("\\\\n", "").replaceAll("\\\\t", "").replaceAll("\\\\", "");
content=content.substring(0, content.length()<=13?content.length():content.length()-13);
System.out.println(content);

輸出的content就是首頁顯示的微博內容

不過這個輸出的話unicode沒有被轉成中文字符需要用native2ascii工具去網上找到了一個:

http://soulshard.iteye.com/blog/346807

實測可以使用:

Java代碼

System.out.println(Native2AsciiUtils.ascii2Native(content));

注意了以上的代碼 lz是固定了主頁的所以在截取時直接用了index為8的

把post方法改成get方法也可以獲取到其他人的微博頁

然后給出一個打印出獲取的所有html內容的做法(試了一些主頁可行):

Java代碼

package jsoupTest;
import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import org.jsoup.Connection.Method;
import org.jsoup.Connection.Response;
import org.jsoup.Jsoup;
public class JsoupTest {
public static void main(String[] args) throws IOException {
Map<String, String> map = new HashMap<>();
//map.put請根據自己的微博cookie得到
Response res = Jsoup.connect("http://weibo.com/u/別人的主頁id")
.cookies(map).method(Method.GET).execute();
String s = res.body();
System.out.println(s);
String[] ss = s.split("<script>FM.view");
int i = 0;
// pl_content_homeFeed
// pl.content.homeFeed.index
List<String> list = new ArrayList<>();
for (String x : ss) {
// System.out.println(i++ + "======================================");
// System.out.println(x.substring(0,
// x.length() > 200 ? 200 : x.length()));
// System.out.println("===========================================");
if (x.contains("\"html\":\"")) {
String value = getHtml(x);
list.add(value);
System.out.println(value);
}
}
// content=ss[8].split("\"html\":\"")[1].replaceAll("(\\\\t|\\\\n)",
// "").replaceAll("\\\\\"", "\"").replaceAll("\\\\/", "/");
// content=content.substring(0,
// content.length()<=13?content.length():content.length()-13);
// System.out.println(Native2AsciiUtils.ascii2Native(content));
}
public static String getHtml(String s) {
String content = s.split("\"html\":\"")[1]
.replaceAll("(\\\\t|\\\\n|\\\\r)", "").replaceAll("\\\\\"", "\"")
.replaceAll("\\\\/", "/");
content = content.substring(0,
content.length() <= 13 ? content.length()
: content.length() - 13);
return Native2AsciiUtils.ascii2Native(content);
}
}

抓取的內容應該要適當格式化一下才可以用Jsoup做解析

不過試了下直接做解析也沒什么問題(雖然有一些標簽錯誤)

這只是個頁面抓取的策略其他的我不想多寫了大家自己實踐一下前提是你用自己的新浪微博的cookie進行抓取

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 獲取數據——爬取某微博評論微博內容爬取用selenium爬取某人的微博數據，面向過程方式對微博熱搜的爬取及數據分析用來爬取新浪微博評論數據數據爬蟲爬取微博上的個人所有信息用python爬取微博數據並生成詞雲 Jsoup爬取數據設置代理IP 使用Jsoup進行疫情數據爬取 Jsoup 解析Html及替換img標簽屬性