記錄一次爬蟲抓取數據的過程

本文轉載自查看原文 2019-04-26 16:38 475 爬蟲/ python

第一次編寫python腳本，爬取了一些數據，供公司內部使用，

抓取到json格式數據之后，導入到Excel中進行排序篩選並圖表化，得到了一些分析結果，雖然簡單，但很有意義。

也可以算是對爬蟲有了一個入門，接下來會學習一些數據挖掘，數據清洗相關的內容，數據的清洗分析也是很有意思的

下邊是經過簡化后的代碼：

 1 import time
 2 import requests
 3 import json
 4 
 5 #####################################################################
 6 #################  請登錄瀏覽器獲取sessionID  #######################
 7 #####################################################################
 8 sess_ID = ''    #請填寫sessionID
 9 s = requests.Session()        ###創建requests對象
10 
11 ######################### cook params ###############################
12 startTime='2019-04-23+00:00:00'    #起始時間 2019-04-24+00:00:00
13 endTime  ='2019-04-23+23:59:59'    #結束時間
14 header_refer_url = 'http://www.baidu,com'
15 file_name_prefix='百度-'
16 
17 ############### cook filename  ############
18 file_name_list = startTime.split('+')
19 date_str = file_name_list[0];
20 file_name = file_name_prefix + str(data_Source) + '-' + date_str +'.txt'
21 
22 ############### cook header and url  ############
23 header = {
24 'Referer': '{refer}'.format(refer=header_refer_url),
25 'Session-Id': '{sessID}'.format(sessID=sess_ID),
26 'Connection':'close'
27 }
28 plateurl = ('http://www.baidu,com?'
29     'recordTimeStart={startTime}'
30     '&recordTimeEnd={endTime}').format(
31     endTime=endTime,startTime=startTime)
32     
33 ############### cook page_range  ############
34 total_num = 10
35 print("totalnum:",total_num)
36 
37 print(file_name)
38 fout=open(file_name,'w+',encoding='UTF-8')    ###open file
39 ############### pull data from server ############
40 for num in range(total_num):
41     page_num=num+1
42     plateurl = ('http://www.baidu,com?'
43         'recordTimeStart={startTime}'
44         '&recordTimeEnd={endTime}').format(
45         endTime=endTime,startTime=startTime)
46     try:
47         resp = s.get(plateurl,headers=header)
48         resp.encoding = 'utf-8'
49         print("totalnum:",total_num,'curr_page:',page_num,' status_code = {0}'.format(resp.status_code))
50         fout.write(resp.text)    ### 將網頁內容存入文件
51         fout.write('\n')
52     except:
53         print('refused by server!sleep 2 sec')
54         time.sleep(2)
55         continue
56 fout.close()

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 記錄一次cnvd挖掘過程定向爬取股票數據——記錄一次爬蟲實戰 Python爬蟲學習，記一次抓包獲取js，從js函數中取數據的過程記錄一次阿里雲數據庫表數據被刪恢復過程記錄一次經歷的數據庫從單庫到分庫分表的過程【Python3爬蟲】一次應對JS反調試的記錄記錄一次elasticsearch-php工作過程【linux】記錄一次系統被攻擊的處理過程記錄一次谷歌人機驗證碼破解過程記錄一次bug解決過程：eclipse集成lombok插件