針對源代碼和檢查元素不一致的網頁爬蟲——利用Selenium、PhantomJS、bs4爬取12306的列車途徑站信息

本文轉載自查看原文 2019-06-28 23:00 907 Python

整個程序的核心難點在於上次豆瓣爬蟲針對的是靜態網頁，源代碼和檢查元素內容相同；而在12306的查找搜索過程中，其網頁發生變化（出現了查找到的數據），這個過程是動態的，使得我們在審查元素中能一一對應看到的表格數據沒有顯示在源代碼中。這也是這次12306爬蟲和上次豆瓣書單爬蟲的最大不同點。

查找相關資料，我選擇使用Selenium的PhantomJS模擬瀏覽器爬取源代碼，這樣獲取到的datas包含了我需要的（查找搜索出的）途徑站數據。

暫時把整個程序分為了這幾個部分：（1）提取列車Code和No信息；（2）找到url規律，根據Code和No變化實現多個網頁數據爬取；（3）使用PhantomJS模擬瀏覽器爬取源代碼；（3）用bs4解析源代碼，獲取所需的途徑站數據；（4）用csv庫存儲獲得的數據。

整體使用面向過程的書寫方式。

（1）values_get()函數實現了從已有存儲了列車信息的csv中逐次提取Code和No。（在這里有點刻意追求面向過程的函數，設置了每次提取都openfile再close。所以使用了tell一次readline完的游標位置，再seek次游標位置到下一次提取位置，實現關閉file后仍然可以接着上一次結束的seek位置繼續操作）

（2）olddriver()函數包含PhantomJS和bs4兩個部分。利用format來控制多個url，用PhantomJS、driver代替requests爬取網頁源代碼driver.get(url)。service_args可以配置模擬瀏覽器（優化加速），set_page_load_timeout()和set_script_timeout()+try except（'window.stop()'）設置超時（還未用上，存疑），最后用driver.quit()關閉使用完的PhantomJS避免內存爆炸。*這里存在很多優化模擬瀏覽器的方法，除了上述的配置、超時、quit，還包括在循環外提前打開PhantomJS來實現程序運行時間加速等方法，筆者還未理解透這些方法。這里貼出優化的參考鏈接：①https://blog.csdn.net/weixin_40284075/article/details/87190040②https://www.jianshu.com/p/8ec70859ae03還有PhantomJS的使用攻略①https://www.cnblogs.com/miqi1992/p/8093958.html②https://www.cnblogs.com/lizm166/p/8360388.html

為什么使用已經被Selenium拋棄的PhantomJS而不使用Headless Chrome？筆者也曾嘗試過使用無頭chrome，但爬到的源代碼仍不包含我所需tbody數據。

丟失數據的源代碼長這樣（它只有tbody標簽，沒有標簽內的數據）。

而檢查元素里可以看到所需數據出現在tbody內：

雖然用PhantomJS確實可以爬取到所需的tbody數據，但是在后來循環url爬取多個列車信息時，可能是因為網站有反爬蟲措施，或是PhantomJS的不穩定，導致了經常會出現丟失數據的情況（PhantomJS的作用失效了）。所以我添加了一句if datas==[]，遞歸olddriver(）來確保能爬到這班列車的信息。如圖，失敗率仍然很高。

（3）最后是data_write_csv()寫入數據到csv，這里用csv庫直接把列表變為了csv文件（列表中的多個列表就是多行數據），以后多嘗試用一下csv庫，還是很好用的。

（4）在主程序調用各個函數時，要注意global全局變量的使用、函數return參數給其他函數使用。

（5）最后是幾點自己的建議和猜想。首先如果12306真的有反爬蟲，我們可以嘗試像requests一樣的偽裝（在driver里沒刻意偽裝）或是換其他的網站來爬取。其次多注意：爬取網頁查詢搜索數據的方法，網頁跳轉等（或簡易成爬取多個網頁數據，如本例）。還有PhantomJS和headless Chrome，按理來說headless Chrome不會出現這樣的錯誤。最后是提升爬蟲運行速度的方法，（這次的爬取速度實在太慢了，10條信息平均要3分鍾才能成功獲得），除了對模擬瀏覽器的配置和優化，以及代碼本身的優化（如file文件一直開着，不提取一次數據就開關file一次），我們是否可以嘗試其他的源代碼.get(url)獲取方式？嘗試多線程加速？嘗試雲服務器？

上代碼↓

  1 import urllib3
  2 #import requests
  3 from selenium import webdriver
  4 from bs4 import BeautifulSoup
  5 import csv
  6 import time
  7 
  8 start = time.time()
  9 
 10 def values_get():#通過設置游標來實現：從上一次結束的地方繼續讀取
 11     file = open('Code.csv','r')
 12     global seekloc#全局游標
 13     file.seek(seekloc)#設置游標位置
 14     line = file.readline()
 15     '''
 16     if line == '':
 17         break
 18     '''
 19     if line == '':
 20         seekloc = -1
 21     twovalue = line.strip('\n').split(',')#csv轉化為list
 22     code, no = twovalue[0], twovalue[1]
 23     seekloc = file.tell()#讀取結束時游標的位置
 24     file.close()
 25     return code, no#code是列車號，no是長串
 26 
 27 def olddriver():
 28 
 29     #下文中將PhantomJS移除循環未果，任選擇在循環中打開。
 30     service_args=[]#PhantomJS優化
 31     service_args.append('--load-images=no')  ##關閉圖片加載
 32     driver = webdriver.PhantomJS(service_args=service_args)
 33 
 34     driver.set_page_load_timeout(10)  # 設置頁面加載超時
 35     driver.set_script_timeout(10)  # 設置頁面異步js執行超時
 36     
 37     url = f'https://kyfw.12306.cn/otn/queryTrainInfo/init?train_no={no}&station_train_code={code}&date=2019-07-16'
 38     try:
 39         driver.get(url)
 40         data = driver.page_source
 41     except:
 42         print('Timeout!')
 43         driver.execute_script('window.stop()')
 44     driver.quit()#這句可讓PhantomJS關閉
 45     #return data
 46 
 47 #def beauti4soup():
 48     #global data
 49     soup = BeautifulSoup(data,'lxml')
 50     table_datas = soup.find('table',{'id':'queryTable'})
 51     datas = table_datas.findAll('tbody')[1].findAll('tr')
 52     if datas == []:
 53         print('Failed... Restart!')
 54         olddriver()
 55         #beauti4soup()
 56     else:
 57         print("It's OK! ")
 58     midways = []
 59     for data in datas:
 60         midway = data.find('div',{'class':'t-station'}).get_text()#單個列車的信息爬取
 61         midways.append(midway)
 62     answer.append(midways)
 63     return answer
 64 
 65 def data_write_csv(file_name,datas):
 66     file_csv = open(file_name,'w+')
 67     #writer = csv.writer(file_csv,delimiter=',',quotechar=' ',quoting=csv.QUOTE_MINIMAL)csv庫用法存疑
 68     writer = csv.writer(file_csv)
 69     for data in datas:
 70         writer.writerow(data)
 71 
 72 
 73 #---主程序開始---#
 74 
 75 seekloc = 0#初始化游標
 76 values_get()#運行一次values_get()把csv無用的第一行過濾掉
 77 answer = []#存儲所有途徑站信息的list
 78 '''
 79 #這里三行嘗試將PhantomJS放在循環外，提前開啟，減少加載時間。
 80 #結果：運行時間確實大幅減短，但遇到一次failed之后就一直failed。
 81 #參考鏈接：https://blog.csdn.net/qingwuh/article/details/81583801
 82 service_args=[]#PhantomJS優化
 83 service_args.append('--load-images=no')  ##關閉圖片加載
 84 driver = webdriver.PhantomJS(service_args=service_args)
 85 '''
 86 j = 1
 87 while True:#循環爬取
 88     code, no = values_get()
 89     if j > 10:#十個一循環的測試
 90         break
 91     #if seekloc == -1:
 92     #    break
 93     answer = olddriver()
 94     j += 1 
 95 
 96 data_write_csv('Route.csv',answer)#存儲數據 
 97 
 98 #---主程序結束---#
 99 end = time.time()
100 print('Running time: {} Seconds'.format(end-start))
101 print("=================================")

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 記錄幾個爬取動態網頁時的問題(下拉框，舊的元素無法獲取，獲取的源代碼和f12看到的不一致，爬取延遲) 爬取頁面和審查元素獲取的內容不一致 Intellij IDEA 編譯等級與源代碼等級不一致問題 Python爬蟲 (一) | 案例及模板簡要四步爬取購物網站信息 | 基於 requests、re、 pandas、 bs4 爬蟲概念與編程學習之如何爬取網頁源代碼（一） Python爬蟲學習——使用selenium和phantomjs爬取js動態加載的網頁 Selenium+PhantomJs 爬取網頁內容 python的基礎爬蟲（利用requests和bs4） python+selenium+PhantomJS爬取網頁動態加載內容 python+selenium+PhantomJS爬取網頁動態加載內容