-
精力有限的我們,如何更加有效率地監控信息?
很多時候特別是交易時,我們需要想辦法監控一些信息,比如股市的公告。如果現有的軟件沒有辦法實現我們的需求,那么就要靠我們自己動手,才能豐衣足食。

爬蟲抓取的是東方財富上的上市公司公告,上市公司公告有些會在盤中公布。實時監控的原理,其實就是程序代替人工,定期地去刷新網頁,然后用刷新前后得到的數據進行比對,如果一樣,那么等待下一個周期繼續刷新,如果不一樣,那么就把增量信息提取出來,供我們查閱。
-
利用python爬蟲實時監控公告信息四部曲
第一步,導入隨機請求頭和需要的包

我們使用json來解析獲取的信息,使用什么方法解析數據取決於我們請求數據的返回形式,這里使用json最方便,我們就導入json包。

第二步,獲取初始的公告數據
我們發現,每一個公告都有一個獨有的文章號碼:art_code,因此我們以這個號碼作為新舊比較的基准,如果新頁面的頭一個公告的art_code和已有的一致,那么就進入下一個刷新周期,如果不一致,那么說明頁面已經更新過了,我們提取最新的報告,同時更新這個art_code,用於下一次比對。

-
原始url的獲取。獲取之后,通過json解析其中的內容,得到art_code,覆蓋寫入在tmp.txt文件中,用於比對。

-
讀取了tmp.txt文件中的art_code,跟頁面解析的art_code比對。

第三步,獲取公告標題和文章鏈接
-
通過json我們基本上已經能夠解析出大部分的數據內容。
-
通過觀察網站的公告鏈接的特點,我們發現主要的差別就是在art_code,因此通過網址鏈接的拼接,我們就能夠得到公告的pdf鏈接。

第四步,運行我們的程序
程序運行的結果會打印到窗口當中,每當有新的公告發布,程序上就會出現一串新的信息。
-
最后
自此,我們通過程序把我們要的信息打印到了程序的運行窗口,同時,我們的程序也可以根據我們需求進行強化和擴充。首先,這些信息也可以非常方便的通過接口發送到郵箱、釘釘等平台,起到實時提醒的作用,其次,我們也可以從不同的地方抓取信息,完成所需信息的自定義整合,這些將在我們后續的文章中提到。

