【數量技術宅 | Python爬蟲系列分享】實時監控股市重大公告的Python爬蟲


實時監控股市重大公告的Python爬蟲小技巧

  • 精力有限的我們,如何更加有效率地監控信息?

很多時候特別是交易時,我們需要想辦法監控一些信息,比如股市的公告。如果現有的軟件沒有辦法實現我們的需求,那么就要靠我們自己動手,才能豐衣足食。

你在交易看盤時,如果有一個小窗口,平時默默的不聲不響,但是如果有公告發布,就會顯示公告的信息:這是什么公告,然后給我們公告的鏈接。這樣,既不會像彈窗那樣用信息轟炸我們,又能夠定制我們自己想要的內容,做到想看就看,想不看就不看,那就很方便了。

爬蟲抓取的是東方財富上的上市公司公告,上市公司公告有些會在盤中公布。實時監控的原理,其實就是程序代替人工,定期地去刷新網頁,然后用刷新前后得到的數據進行比對,如果一樣,那么等待下一個周期繼續刷新,如果不一樣,那么就把增量信息提取出來,供我們查閱。

  • 利用python爬蟲實時監控公告信息四部曲

第一步,導入隨機請求頭和需要的包

我們使用json來解析獲取的信息,使用什么方法解析數據取決於我們請求數據的返回形式,這里使用json最方便,我們就導入json包。

第二步,獲取初始的公告數據

我們發現,每一個公告都有一個獨有的文章號碼:art_code,因此我們以這個號碼作為新舊比較的基准,如果新頁面的頭一個公告的art_code和已有的一致,那么就進入下一個刷新周期,如果不一致,那么說明頁面已經更新過了,我們提取最新的報告,同時更新這個art_code,用於下一次比對。

  1. 原始url的獲取。獲取之后,通過json解析其中的內容,得到art_code,覆蓋寫入在tmp.txt文件中,用於比對。

  2. 讀取了tmp.txt文件中的art_code,跟頁面解析的art_code比對。

第三步,獲取公告標題和文章鏈接

  1. 通過json我們基本上已經能夠解析出大部分的數據內容。

  2. 通過觀察網站的公告鏈接的特點,我們發現主要的差別就是在art_code,因此通過網址鏈接的拼接,我們就能夠得到公告的pdf鏈接。

第四步,運行我們的程序

程序運行的結果會打印到窗口當中,每當有新的公告發布,程序上就會出現一串新的信息。

  • 最后

自此,我們通過程序把我們要的信息打印到了程序的運行窗口,同時,我們的程序也可以根據我們需求進行強化和擴充。首先,這些信息也可以非常方便的通過接口發送到郵箱、釘釘等平台,起到實時提醒的作用,其次,我們也可以從不同的地方抓取信息,完成所需信息的自定義整合,這些將在我們后續的文章中提到。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM