java 模擬登錄新浪微博(通過cookie)


這幾天一直在研究新浪微博的爬蟲,發現爬取微博的數據首先要登錄。本來打算是通過賬號和密碼模擬瀏覽器登錄。但是現在微博的登錄機制比較復雜。通過賬號密碼還沒有登錄成功QAQ。所以就先記錄下,通過cookie直接訪問自己的微博主頁

微博登錄的認證過程

微博登錄的細節在其他的博客里已經有了詳細的介紹。大概就是用戶輸入賬號和密碼后與服務器產生幾次會話。若認證成功后,微博的服務器會返回給瀏覽器一個cookie。在之后訪問微博的其他內容時,通過發送這個cookie就能正常訪問微博了。所以用過cookie訪問微博,過程就簡化為了獲取cookie,然后通過程序模擬瀏覽器訪問微博首頁。

獲取微博的cookie

通過抓包軟件或瀏覽器自帶的調試工具都可以抓取網頁的cookie。本文使用的是火狐瀏覽器的HttpFox 插件來獲取微博的cookie。

1,打開微博首頁,打開HttpFox
這里寫圖片描述
2,輸入用戶名和密碼,勾選“記住我”,點擊登錄。點擊登錄后我們可以看到HttpFox下產生了很多的URL。進入主頁后在HTTPFox中找到你主頁對應的URL,如下圖:
圖2
點擊主頁的URL后,我們可以看見左下方的一些信息。包括“Headers”,“Cookies”等。
3,在“Headers”中可以看到有一條“Cookie”的信息。這個就是我們所需要的cookie了。點擊右鍵保存cookie。
至此,就獲取了我們登錄時所要的cookie了!

代碼實現

由於我們是直接通過cookie進行的登錄。所以少了很多認證的過程。直接使用HttpClient的相關包,帶上之前獲取的cookie就可以訪問個人首頁。獲取了首頁,我們就可以通過正則表達式來分析微博數據了。


import java.io.IOException; import java.net.URI; import java.net.URISyntaxException; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import org.apache.http.client.methods.HttpPost; import org.apache.http.config.Registry; import org.apache.http.config.RegistryBuilder; import org.apache.http.cookie.CookieSpec; import org.apache.http.cookie.CookieSpecProvider; import org.apache.http.impl.client.BasicCookieStore; import org.apache.http.impl.client.HttpClients; import org.apache.http.impl.cookie.DefaultCookieSpec; import org.apache.http.message.BasicHeader; import org.apache.http.protocol.HttpContext; import org.apache.http.util.EntityUtils; /** * * * @author zkw * */ public class cookieLogin { private HttpClient client; private HttpPost post; private HttpGet get; private BasicCookieStore cookieStore; public cookieLogin() { //cookie策略,不設置會拒絕cookie rejected,設置策略保存cookie信息 cookieStore = new BasicCookieStore(); CookieSpecProvider myCookie = new CookieSpecProvider() { public CookieSpec create(HttpContext context) { return new DefaultCookieSpec(); } }; Registry<CookieSpecProvider> rg = RegistryBuilder.<CookieSpecProvider> create().register("myCookie", myCookie) .build(); client = HttpClients.custom().setDefaultCookieStore(cookieStore).setDefaultCookieSpecRegistry(rg).build(); get = new HttpGet(); post = new HttpPost(); } public void Login() throws ClientProtocolException, IOException, URISyntaxException { String LoginUrl = "你的微博主頁網址"; get.setURI(new URI(LoginUrl)); get.addHeader("Host", "weibo.com"); get.addHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0"); get.addHeader("Accept", "*/*"); get.addHeader("Accept-Language", "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3"); get.addHeader("Accept-Encoding", "gzip, deflate"); get.addHeader("Referer", "http://weibo.com/"); get.addHeader(new BasicHeader("Cookie", "上述獲取的cookie值")); HttpResponse resp = client.execute(get); HttpEntity entity = resp.getEntity(); String cont = EntityUtils.toString(entity); System.out.println("獲取的微博內容:" + cont); } public HttpClient getClient() { return client; } public void setClient(HttpClient client) { this.client = client; } public HttpPost getPost() { return post; } public void setPost(HttpPost post) { this.post = post; } public HttpGet getGet() { return get; } public void setGet(HttpGet get) { this.get = get; } public BasicCookieStore getCookieStore() { return cookieStore; } public void setCookieStore(BasicCookieStore cookieStore) { this.cookieStore = cookieStore; } public static void main(String[] args) throws ClientProtocolException, IOException, URISyntaxException { new cookieLogin().Login(); } } 

總結

通過cookie登錄微博是一種快捷方式,但是存在不少問題。所以博主還在研究微博賬號認證過程,希望過幾天能有所突破QAQ。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM