聽說學校快開學了...任務再不快點做的話,估計開學要被導師罵死,所以要查一下近年來自己研究領域的基金中標情況!
遇到的問題
- 導師給了個科學網的網址讓我自己查基金,查完告訴他結果,可是! 在科學網查詢的時候,發現只要同一IP短時間內訪問 10次 左右,網頁就會說你 訪問太頻繁 了...然后 等個10分鍾左右才能重新訪問
- 在科學網碰壁后,我先是查了下有沒有別的基金查詢網站,然后發現在一眾網站中,還是科學網的信息更全面一點(nsfc,medsci,letpub等),然后就還是爬蟲叭!!!
1. 了解科學網的框架,根據自己的目標來設計爬蟲思路
目標
要根據摘要來了解相關信息,那么發現在這個頁面上是沒有摘要的,只有點入某個標題后才能獲取基金的摘要等詳細信息
思路
- 網址的設置 (限制學科分類、限制年份、關鍵字)
- 目標元素的獲取
- 循環的編寫
2. ACTION
先在科學網的基金頁面填寫好相關關鍵詞,選好學科分類和年份后,點擊“查詢按鈕”
然后將瀏覽器頂部的網址復制到vs code中,修改網址組成(主要是改年份和頁數)
回到瀏覽器,觀察目標元素的位置,xpath定位
再寫個嵌套循環
(別忘了需要一定的等待時間)
OKKK!!!