python爬取科學網基金項目信息


聽說學校快開學了...任務再不快點做的話,估計開學要被導師罵死,所以要查一下近年來自己研究領域的基金中標情況!

遇到的問題

  1. 導師給了個科學網的網址讓我自己查基金,查完告訴他結果,可是! 在科學網查詢的時候,發現只要同一IP短時間內訪問 10次 左右,網頁就會說你 訪問太頻繁 了...然后 等個10分鍾左右才能重新訪問
  2. 在科學網碰壁后,我先是查了下有沒有別的基金查詢網站,然后發現在一眾網站中,還是科學網的信息更全面一點(nsfc,medsci,letpub等),然后就還是爬蟲叭!!!

1. 了解科學網的框架,根據自己的目標來設計爬蟲思路

目標
要根據摘要來了解相關信息,那么發現在這個頁面上是沒有摘要的,只有點入某個標題后才能獲取基金的摘要等詳細信息

思路

  1. 網址的設置 (限制學科分類、限制年份、關鍵字)
  2. 目標元素的獲取
  3. 循環的編寫

2. ACTION

先在科學網的基金頁面填寫好相關關鍵詞,選好學科分類和年份后,點擊“查詢按鈕”
然后將瀏覽器頂部的網址復制到vs code中,修改網址組成(主要是改年份和頁數)
回到瀏覽器,觀察目標元素的位置,xpath定位
再寫個嵌套循環
(別忘了需要一定的等待時間)
OKKK!!!


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM