一、爬蟲如何抓取網頁數據:
網頁三大特征:
-1. 網頁都有自己唯一的URL(統一資源定位符)來進行定位
-2. 網頁都使用HTML (超文本標記語言)來描述頁面信息。
-3. 網頁都使用HTTP/HTTPS(超文本傳輸協議)協議來傳輸HTML數據。
爬蟲的設計思路:
-1. 首先確定需要爬取的網頁URL地址。
-2. 通過HTTP/HTTP協議來獲取對應的HTML頁面。
-3. 提取HTML頁面里有用的數據:
a. 如果是需要的數據,就保存起來。
b. 如果是頁面里的其他URL,那就繼續執行第二步。
二、通用爬蟲與聚焦爬蟲
1、通用爬蟲:搜索引擎用的爬蟲系統。
-1目標:就是盡可能把互聯網上所有的網頁下載下來,放到本地服務器里形成備份,再對這些網頁做相關處理(提取關鍵字、去掉廣告),最后提供一個用戶檢索接口。
-2抓取流程:
a) 首選選取一部分已有的URL,把這些URL放到待爬取隊列。
b) 從隊列里取出這些URL,然后解析DNS得到主機IP,然后去這個IP對應的服務器里下載HTML頁面,保存到搜索引擎的本地服務器。之后把這個爬過的URL放入已爬取隊列。
c) 分析這些網頁內容,找出網頁里其他的URL連接,繼續執行第二步,直到爬取條件結束。
-3 搜索引擎如何獲取一個新網站的URL:
1. 主動向搜索引擎提交網址:http://zhanzhang.baidu.com/linksubmit/url
2. 在其他網站里設置網站的外鏈。
3. 搜索引擎會和DNS服務商進行合作,可以快速收錄新的網站。
DNS:就是把域名解析成IP的一種技術。
-4 通用爬蟲並不是萬物皆可爬,它也需要遵守規則:Robots協議:協議會指明通用爬蟲可以爬取網頁的權限。
Robots.txt 只是一個建議。並不是所有爬蟲都遵守,一般只有大型的搜索引擎爬蟲才會遵守。咱們個人寫的爬蟲,就不管了。
-5 通用爬蟲工作流程:爬取網頁 - 存儲數據 - 內容處理 - 提供檢索/排名服務
-6 通用爬蟲的缺點:
1. 只能提供和文本相關的內容(HTML、Word、PDF)等等,但是不能提供多媒體文件(音樂、圖片、視頻)和二進制文件(程序、腳本)等等。
2. 提供的結果千篇一律,不能針對不同背景領域的人提供不同的搜索結果。
3. 不能理解人類語義上的檢索。
2、聚焦爬蟲:爬蟲程序員寫的針對某種內容的爬蟲。
面向主題爬蟲,面向需求爬蟲:會針對某種特定的內容去爬取信息,而且會保證信息和需求盡可能相關。
三、HTTP和HTTPS
HTTP協議(HyperText Transfer Protocol,超文本傳輸協議):是一種發布和接收 HTML頁面的方法。
- HTTP的端口號為80
HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)簡單講是HTTP的安全版,在HTTP下加入SSL層。
- SSL(Secure Sockets Layer 安全套接層)主要用於Web的安全傳輸協議,在傳輸層對網絡連接進行加密,保障在Internet上數據傳輸的安全。
- HTTPS的端口號為443
HTTP工作原理
瀏覽器的主要功能是向服務器發出請求,在瀏覽器窗口中展示您選擇的網絡資源,HTTP是一套計算機通過網絡進行通信的規則。
網絡爬蟲抓取過程可以理解為模擬瀏覽器操作的過程
。
HTTP的請求與響應
HTTP通信由兩部分組成: 客戶端請求消息 與 服務器響應消息
瀏覽器發送HTTP請求的過程:
1、當用戶在瀏覽器的地址欄中輸入一個URL並按回車鍵之后,瀏覽器會向HTTP服務器發送HTTP請求。HTTP請求主要分為“Get”和“Post”兩種方法。
2、當我們在瀏覽器輸入URL http://www.baidu.com 的時候,瀏覽器發送一個Request請求去獲取 http://www.baidu.com 的html文件,服務器把Response文件對象發送回給瀏覽器。
3、瀏覽器分析Response中的 HTML,發現其中引用了很多其他文件,比如Images文件,CSS文件,JS文件。 瀏覽器會自動再次發送Request去獲取圖片,CSS文件,或者JS文件。
4、當所有的文件都下載成功后,網頁會根據HTML語法結構,完整的顯示出來了。
URL(Uniform / Universal Resource Locator的縮寫):
統一資源定位符,是用於完整地描述Internet上網頁和其他資源的地址的一種標識方法。
基本格式:scheme://host[:port#]/path/…/[?query-string][#anchor]
- scheme:協議(例如:http, https, ftp)
- host:服務器的IP地址或者域名
- port#:服務器的端口(如果是走協議默認端口,缺省端口80)
- path:訪問資源的路徑
- query-string:參數,發送給http服務器的數據(get請求)
- anchor:錨(跳轉到網頁的指定錨點位置)
例如:
客戶端HTTP請求
URL只是標識資源的位置,而HTTP是用來提交和獲取資源。客戶端發送一個HTTP請求到服務器的請求消息,包括以下格式:
請求行
、請求頭部
、空行
、請求數據
四個部分組成,下圖給出了請求報文的一般格式。
一個典型的HTTP請求示例
GET https://www.baidu.com/ HTTP/1.1 # 請求行 Host: www.baidu.com # 以下是請求頭(報頭) Connection: keep-alive Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8 Referer: http://www.baidu.com/ Accept-Encoding: gzip, deflate, sdch, br Accept-Language: zh-CN,zh;q=0.8,en;q=0.6 Cookie: BAIDUID=04E4001F34EA74AD4601512DD3C41A7B:FG=1; BIDUPSID=04E4001F34EA74AD4601512DD3C41A7B; PSTM=1470329258; MCITY=-343%3A340%3A; BDUSS=nF0MVFiMTVLcUh-Q2MxQ0M3STZGQUZ4N2hBa1FFRkIzUDI3QlBCZjg5cFdOd1pZQVFBQUFBJCQAAAAAAAAAAAEAAADpLvgG0KGyvLrcyfrG-AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAFaq3ldWqt5XN; H_PS_PSSID=1447_18240_21105_21386_21454_21409_21554; BD_UPN=12314753; sug=3; sugstore=0; ORIGIN=0; bdime=0; H_PS_645EC=7e2ad3QHl181NSPbFbd7PRUCE1LlufzxrcFmwYin0E6b%2BW8bbTMKHZbDP0g; BDSVRTM=0 # 請求數據(只有在發送post請求時出現,中間用一個空行分割) i=python&from=AUTO&to=AUTO&smartresult=dict&client=fanyideskweb&salt=1512019359495&sign=582336c38291a44d233558393a7c54e0&doctype=json&version=2.1&keyfrom=fanyi.web&action=FY_BY_CLICKBUTTION&typoResult=false
請求方法(請求行中第一個寫的)
HTTP請求主要分為Get
和Post
兩種方法
-
GET是從服務器上獲取數據,POST是向服務器傳送數據
-
GET請求參數顯示,都顯示在瀏覽器網址上,HTTP服務器根據該請求所包含URL中的參數來產生響應內容,即“Get”請求的參數是URL的一部分。 例如:
http://www.baidu.com/s?wd=Chinese
-
POST請求參數在請求體當中,消息長度沒有限制而且以隱式的方式進行發送,通常用來向HTTP服務器提交量比較大的數據(比如請求中包含許多參數或者文件上傳操作等),請求的參數包含在“Content-Type”消息頭里,指明該消息體的媒體類型和編碼,
常用的請求報頭
1. Host (主機和端口號)
Host:對應網址URL中的Web名稱和端口號,用於指定被請求資源的Internet主機和端口號,通常屬於URL的一部分。
2. Connection (鏈接類型)
Connection:表示客戶端與服務連接類型
-
Client 發起一個包含
Connection:keep-alive
的請求,HTTP/1.1使用keep-alive
為默認值。 -
Server收到請求后:
- 如果 Server 支持 keep-alive,回復一個包含 Connection:keep-alive 的響應,不關閉連接;
- 如果 Server 不支持 keep-alive,回復一個包含 Connection:close 的響應,關閉連接。
-
如果client收到包含
Connection:keep-alive
的響應,向同一個連接發送下一個請求,直到一方主動關閉連接。
keep-alive在很多情況下能夠重用連接,減少資源消耗,縮短響應時間,比如當瀏覽器需要多個文件時(比如一個HTML文件和相關的圖形文件),不需要每次都去請求建立連接。
3. Upgrade-Insecure-Requests (升級為HTTPS請求)
Upgrade-Insecure-Requests:升級不安全的請求,意思是會在加載 http 資源時自動替換成 https 請求,讓瀏覽器不再顯示https頁面中的http請求警報。
HTTPS 是以安全為目標的 HTTP 通道,所以在 HTTPS 承載的頁面上不允許出現 HTTP 請求,一旦出現就是提示或報錯。
4. User-Agent (瀏覽器名稱)
User-Agent:是客戶瀏覽器的名稱,以后會詳細講。
5. Accept (傳輸文件類型)
Accept:指瀏覽器或其他客戶端可以接受的MIME(Multipurpose Internet Mail Extensions(多用途互聯網郵件擴展))文件類型,服務器可以根據它判斷並返回適當的文件格式。
舉例:
Accept: */*
:表示什么都可以接收。
Accept:image/gif
:表明客戶端希望接受GIF圖像格式的資源;
Accept:text/html
:表明客戶端希望接受html文本。
Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8
:表示瀏覽器支持的 MIME 類型分別是 html文本、xhtml和xml文檔、所有的圖像格式資源。
q是權重系數,范圍 0 =< q <= 1,q 值越大,請求越傾向於獲得其“;”之前的類型表示的內容。若沒有指定q值,則默認為1,按從左到右排序順序;若被賦值為0,則用於表示瀏覽器不接受此內容類型。
Text:用於標准化地表示的文本信息,文本消息可以是多種字符集和或者多種格式的;Application:用於傳輸應用程序數據或者二進制數據。詳細請點擊
6. Referer (頁面跳轉處)
Referer:表明產生請求的網頁來自於哪個URL,用戶是從該 Referer頁面訪問到當前請求的頁面。這個屬性可以用來跟蹤Web請求來自哪個頁面,是從什么網站來的等。
有時候遇到下載某網站圖片,需要對應的referer,否則無法下載圖片,那是因為人家做了防盜鏈,原理就是根據referer去判斷是否是本網站的地址,如果不是,則拒絕,如果是,就可以下載;
7. Accept-Encoding(文件編解碼格式)
Accept-Encoding:指出瀏覽器可以接受的編碼方式。編碼方式不同於文件格式,它是為了壓縮文件並加速文件傳遞速度。瀏覽器在接收到Web響應之后先解碼,然后再檢查文件格式,許多情形下這可以減少大量的下載時間。
舉例:Accept-Encoding:gzip;q=1.0, identity; q=0.5, *;q=0
如果有多個Encoding同時匹配, 按照q值順序排列,本例中按順序支持 gzip, identity壓縮編碼,支持gzip的瀏覽器會返回經過gzip編碼的HTML頁面。 如果請求消息中沒有設置這個域服務器假定客戶端對各種內容編碼都可以接受。
8. Accept-Language(語言種類)
Accept-Langeuage:指出瀏覽器可以接受的語言種類,如en或en-us指英語,zh或者zh-cn指中文,當服務器能夠提供一種以上的語言版本時要用到。
9. Accept-Charset(字符編碼)
Accept-Charset:指出瀏覽器可以接受的字符編碼。
舉例:Accept-Charset:iso-8859-1,gb2312,utf-8
- ISO8859-1:通常叫做Latin-1。Latin-1包括了書寫所有西方歐洲語言不可缺少的附加字符,英文瀏覽器的默認值是ISO-8859-1.
- gb2312:標准簡體中文字符集;
- utf-8:UNICODE 的一種變長字符編碼,可以解決多種語言文本顯示問題,從而實現應用國際化和本地化。
如果在請求消息中沒有設置這個域,缺省是任何字符集都可以接受。
10. Cookie (Cookie)
Cookie:瀏覽器用這個屬性向服務器發送Cookie。Cookie是在瀏覽器中寄存的小型數據體,它可以記載和服務器相關的用戶信息,也可以用來實現會話功能,以后會詳細講。
11. Content-Type (POST數據類型)
Content-Type:POST請求里用來表示的內容類型。
舉例:Content-Type = Text/XML; charset=gb2312:
指明該請求的消息體中包含的是純文本的XML類型的數據,字符編碼采用“gb2312”。
服務端HTTP響應
HTTP響應也由四個部分組成,分別是: 狀態行
、消息報頭
、空行
、響應正文
HTTP/1.1 200 OK Server: Tengine Connection: keep-alive Date: Wed, 30 Nov 2016 07:58:21 GMT Cache-Control: no-cache Content-Type: text/html;charset=UTF-8 Keep-Alive: timeout=20 Vary: Accept-Encoding Pragma: no-cache X-NWS-LOG-UUID: bd27210a-24e5-4740-8f6c-25dbafa9c395 Content-Length: 180945 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" ....
常用的響應報頭(了解)
理論上所有的響應頭信息都應該是回應請求頭的。但是服務端為了效率,安全,還有其他方面的考慮,會添加相對應的響應頭信息,從上圖可以看到:
1. Cache-Control:must-revalidate, no-cache, private。
這個值告訴客戶端,服務端不希望客戶端緩存資源,在下次請求資源時,必須要從新請求服務器,不能從緩存副本中獲取資源。
-
Cache-Control是響應頭中很重要的信息,當客戶端請求頭中包含Cache-Control:max-age=0請求,明確表示不會緩存服務器資源時,Cache-Control作為作為回應信息,通常會返回no-cache,意思就是說,"那就不緩存唄"。
-
當客戶端在請求頭中沒有包含Cache-Control時,服務端往往會定,不同的資源不同的緩存策略,比如說oschina在緩存圖片資源的策略就是Cache-Control:max-age=86400,這個意思是,從當前時間開始,在86400秒的時間內,客戶端可以直接從緩存副本中讀取資源,而不需要向服務器請求。
2. Connection:keep-alive
這個字段作為回應客戶端的Connection:keep-alive,告訴客戶端服務器的tcp連接也是一個長連接,客戶端可以繼續使用這個tcp連接發送http請求。
3. Content-Encoding:gzip
告訴客戶端,服務端發送的資源是采用gzip編碼的,客戶端看到這個信息后,應該采用gzip對資源進行解碼。
4. Content-Type:text/html;charset=UTF-8
告訴客戶端,資源文件的類型,還有字符編碼,客戶端通過utf-8對資源進行解碼,然后對資源進行html解析。通常我們會看到有些網站是亂碼的,往往就是服務器端沒有返回正確的編碼。
5. Date:Sun, 21 Sep 2016 06:18:21 GMT
這個是服務端發送資源時的服務器時間,GMT是格林尼治所在地的標准時間。http協議中發送的時間都是GMT的,這主要是解決在互聯網上,不同時區在相互請求資源的時候,時間混亂問題。
6. Expires:Sun, 1 Jan 2000 01:00:00 GMT
這個響應頭也是跟緩存有關的,告訴客戶端在這個時間前,可以直接訪問緩存副本,很顯然這個值會存在問題,因為客戶端和服務器的時間不一定會都是相同的,如果時間不同就會導致問題。所以這個響應頭是沒有Cache-Control:max-age=*這個響應頭准確的,因為max-age=date中的date是個相對時間,不僅更好理解,也更准確。
7. Pragma:no-cache
這個含義與Cache-Control等同。
8.Server:Tengine/1.4.6
這個是服務器和相對應的版本,只是告訴客戶端服務器的信息。
9. Transfer-Encoding:chunked
這個響應頭告訴客戶端,服務器發送的資源的方式是分塊發送的。一般分塊發送的資源都是服務器動態生成的,在發送時還不知道發送資源的大小,所以采用分塊發送,每一塊都是獨立的,獨立的塊都能標示自己的長度,最后一塊是0長度的,當客戶端讀到這個0長度的塊時,就可以確定資源已經傳輸完了。
10. Vary: Accept-Encoding
告訴緩存服務器,緩存壓縮文件和非壓縮文件兩個版本,現在這個字段用處並不大,因為現在的瀏覽器都是支持壓縮的。
響應狀態碼
響應狀態代碼有三位數字組成,第一個數字定義了響應的類別,且有五種可能取值。
常見狀態碼:
-
100~199
:表示服務器成功接收部分請求,要求客戶端繼續提交其余請求才能完成整個處理過程。 -
200~299
:表示服務器成功接收請求並已完成整個處理過程。常用200(OK 請求成功)。 300~399
:為完成請求,客戶需進一步細化請求。例如:請求的資源已經移動一個新地址、常用302(所請求的頁面已經臨時轉移至新的url)、307和304(使用緩存資源)。400~499
:客戶端的請求有錯誤,常用404(服務器無法找到被請求的頁面)、403(服務器拒絕訪問,權限不夠)。500~599
:服務器端出現錯誤,常用500(請求未完成。服務器遇到不可預知的情況)。
Cookie 和 Session:
服務器和客戶端的交互僅限於請求/響應過程,結束之后便斷開,在下一次請求時,服務器會認為新的客戶端。
為了維護他們之間的鏈接,讓服務器知道這是前一個用戶發送的請求,必須在一個地方保存客戶端的信息。
Cookie:通過在 客戶端 記錄的信息確定用戶的身份。
Session:通過在 服務器端 記錄的信息確定用戶的身份。
四、urllib和urllib2庫的基本使用
基本使用
import urllib2 ua_list= [ "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ", "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ", "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ", "Mozilla/5.0 (Macintosh; Intel Mac OS... " ] # 隨機選一個user_agent user_agent = random.choice(ua_list) # 構造一個請求頭 # ua_headers = {"user_agent ":user_agent } # 通過urllib2.Request(url,data,headers) 方法構造一個請求對象 # request = urllib2.Request("http://www.baidu.com/", headers = ua_headers) request = urllib2.Request(url) ### 我們也可以通過調用Request.add_header() 添加/修改一個特定的header request.add_header("User-Agent", user_agent) # 向指定的url地址發送請求,並返回服務器響應的類文件對象 response = urllib2.urlopen(request) # 服務器返回的類文件對象支持Python文件對象的操作方法 # read()方法就是讀取文件里的全部內容,返回字符串 # 返回 HTTP的響應碼,成功返回200,4服務器頁面出錯,5服務器問題 print response.getcode() # 返回 返回實際數據的實際URL,防止重定向問題 print response.geturl() # 返回 服務器響應的HTTP報頭 print response.info() # 打印響應內容 print response.read() # 獲取當前請求頭的User-agent request.get_header("User-agent")
獲取get請求加載的數據
通過urllib將中文轉碼(以get發請求的時候url不支持中文,所以要轉碼)
import urllib import urllib2 url = "http://www.baidu.com/s" headers = {"User-Agent" : "Mozilla 。。。。"} keyword = raw_input("請輸入需要查詢的關鍵字: ") wd = {"wd" : keyword} # 將字典轉碼成 ==> wd = keyword # 通過urllib.urlencode() 參數是一個dict類型 wd = urllib.urlencode(wd) # 拼接完整的url fullurl = url + "?" + wd # 構造請求對象 request = urllib2.Request(fullurl, headers = headers) response = urllib2.urlopen(request) print response.read()

獲取post請求加載的數據
上面我們說了Request請求對象里的data參數,它就是用在POST里的,我們要傳送的數據就是這個參數data,data是一個字典,里面要匹配鍵值對。
post方式示例:寫一個有道翻譯的接口
import urllib,urllib2 # 通過抓包的方式獲取的url,並不是瀏覽器上顯示的url(機智的有道抓包的url多了一個_o) url = "http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule" # 完整的headers,一定不能帶Accept-Encoding: gzip, deflate,其他的隨便 headers = { 'Accept': 'application/json, text/javascript, */*; q=0.01', 'X-Requested-With': 'XMLHttpRequest', 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36', 'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8', } # 用戶接口輸入 key = raw_input('>>') # 發送到web服務器的表單數據 formdata = { "i" : key, "from" : "AUTO", "to" : "AUTO", "smartresult" : "dict", "client" : "fanyideskweb", "salt" : "1512024287035", "sign" : "a8c9a5a3365fa515acdf8954efe2dcff", "doctype" : "json", "version" : "2.1", "keyfrom" : "fanyi.web", "action" : "FY_BY_REALTIME", "typoResult" : "false", } # 經過urlencode轉碼 data = urllib.urlencode(formdata) # 如果Request()方法里的data參數有值,那么這個請求就是POST # 如果沒有,就是Get request = urllib2.Request(url,data=data,headers=headers) response = urllib2.urlopen(request) print(response.read())
獲取ajax加載的內容
有些網頁內容使用AJAX加載,只要記得,AJAX一般返回的是JSON,直接對AJAX地址進行post或get,就返回JSON數據了。
"作為一名爬蟲工程師,你最需要關注的,是數據的來源"
ajax方式示例:獲取豆瓣電影的排行榜
import urllib2,urllib,json # 有些網頁內容使用AJAX加載,只要記得,AJAX一般返回的是JSON,直接對AJAX地址(在抓包工具獲取的json數據中獲取)進行post或get,就返回JSON數據了。 url = 'https://movie.douban.com/j/chart/top_list?type=11&interval_id=100%3A90&action=' headers = { "Accept" : " */*", "X-Requested-With" : " XMLHttpRequest", "User-Agent" : " Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36", } formdata = { 'start':'0', 'limit':'20' } data = urllib.urlencode(formdata) request = urllib2.Request(url,data,headers) response = urllib2.urlopen(request) print(json.loads(response.read()))
處理HTTPS請求 SSL證書驗證
以后遇到這種網站(SSL證書驗證不通過),我們需要單獨處理SSL證書,讓程序忽略SSL證書驗證錯誤,即可正常訪問。
import urllib import urllib2 # 1. 導入Python SSL處理模塊 import ssl # 2. 表示忽略未經核實的SSL證書認證 context = ssl._create_unverified_context() url = "https://www.12306.cn/mormhweb/" headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"} request = urllib2.Request(url, headers = headers) # 3. 在urlopen()方法里 指明添加 context 參數 response = urllib2.urlopen(request, context = context) print response.read()
Cookie
在請求頭加上cookie就行了
import urllib2 url = "http://www.renren.com/410043129/profile" headers = { "Host" : "www.renren.com", "Connection" : "keep-alive", #"Upgrade-Insecure-Requests" : "1", "User-Agent" : "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36", "Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8", "Referer" : "http://www.renren.com/SysHome.do", #"Accept-Encoding" : "gzip, deflate, sdch", "Cookie" : "anonymid=ixrna3fysufnwv; _r01_=1; depovince=GW; jebe_key=f6fb270b-d06d-42e6-8b53-e67c3156aa7e%7Cc13c37f53bca9e1e7132d4b58ce00fa3%7C1484060607478%7C1%7C1484400895379; jebe_key=f6fb270b-d06d-42e6-8b53-e67c3156aa7e%7Cc13c37f53bca9e1e7132d4b58ce00fa3%7C1484060607478%7C1%7C1484400890914; JSESSIONID=abcX8s_OqSGsYeRg5vHMv; jebecookies=0c5f9b0d-03d8-4e6a-b7a9-3845d04a9870|||||; ick_login=8a429d6c-78b4-4e79-8fd5-33323cd9e2bc; _de=BF09EE3A28DED52E6B65F6A4705D973F1383380866D39FF5; p=0cedb18d0982741d12ffc9a0d93670e09; ap=327550029; first_login_flag=1; ln_uact=mr_mao_hacker@163.com; ln_hurl=http://hdn.xnimg.cn/photos/hdn521/20140529/1055/h_main_9A3Z_e0c300019f6a195a.jpg; t=56c0c522b5b068fdee708aeb1056ee819; societyguester=56c0c522b5b068fdee708aeb1056ee819; id=327550029; xnsid=5ea75bd6; loginfrom=syshome", "Accept-Language" : "zh-CN,zh;q=0.8,en;q=0.6", } request = urllib2.Request(url, headers = headers) response = urllib2.urlopen(request) print response.read()