更多精彩內容,歡迎關注公眾號:數量技術宅,也可添加技術宅個人微信號:sljsz01,與我交流。
實時股票數據的重要性
對於四大可交易資產:股票、期貨、期權、數字貨幣來說,期貨、期權、數字貨幣,可以從交易所提供的api收到實時行情數據,而股票由於量化交易接口不面向普通人開放,導致大家想要獲取到股票的實時數據,十分困難。而與此同時,股票實時數據,又是極其重要的場內交易數據。
對於手動交易者而言,實時數據一方面可以輔助盯盤,另一方面,可以用程序簡單開發到價提醒,到某個價位,進行入場和出場的交易。
對於量化交易者,實時行情就更加重要了。我們接收實時行情之后,不僅需要用實時數據計算策略信號,而且當策略信號需要對某個股票進行下單的時候,我們也需要知道該股票的最新價格、盤口數據,從而根據價格+盤口,選擇合適的價位下單。此外,實時數據落地后,還可以為我們的策略回測服務。
爬蟲最通俗原理解釋
爬蟲,相當於模仿了網頁查詢的動作,比如我們在瀏覽器中輸入了www.baidu.com,瀏覽器向我們返回百度的主頁,其實這就是一個請求+返回的過程。我們請求的是地址,返回的是數據(盡管我們看到的是百度主頁,其實背后對應的還是一些列的數據,只不過后續的可視化展示成了網頁)。
對於請求股票數據來說,也是同理。比如我們請求某一只股票的數據(以600000浦發銀行為例),在瀏覽器地址中輸入:http://hq.sinajs.cn/list=sh600000,股票代碼可任意修改,瀏覽器返回如下數據集並顯示:
那么,對於Python來說,我們如何使用Python來模仿網頁查詢的動作?這里必須要借助一個Python的三方庫:request庫。
requests是使用Apache2 licensed 許可證的HTTP庫。Request支持HTTP連接保持和連接池,支持使用cookie保持會話,支持文件上傳,支持自動響應內容的編碼,支持國際化的URL和POST數據自動編碼。可以說,requests在python內置模塊的基礎上進行了高度的封裝,從而使得python進行網絡請求時,變得人性化,使用Requests可以輕而易舉的完成瀏覽器可有的任何操作。與此同時,requests會自動實現持久連接keep-alive。
requests庫的上述優點,加上其使用的便捷性,使得其成為Python爬蟲的首選工具。我們通過requests,來重復一遍上述網頁的查詢過程,步驟也很簡單,首先查詢單個股票,返回如下
再次查詢多個股票,返回如下,可以看到,用requests進行查詢所返回的結果,與我們網頁上看到的是完全一致的,這也說明requests完美的模擬了瀏覽器的請求動作。
Python爬蟲Sina Stock實戰
第一步,Sina API + Requests庫調用核心函數
通過調用Sina Stock API,實時查詢股票價格。我們采用多股票查詢,使用requests請求接口。
核心函數邏輯:code傳入股票代碼,調用requests庫進行查詢,並解析查詢結果,得到我們想要查詢的股票最新價格、當日漲跌幅、昨收盤價等關鍵字段
第二步,通過threading多線程同時查詢結果、通過Queue實現線程池
我們簡要介紹一下threading和Queue。threading模塊中包含了關於線程操作的豐富功能,包括:常用線程函數,線程對象,鎖對象,遞歸鎖對象,事件對象,條件變量對象,信號量對象,定時器對象,柵欄對象。threading.Thread:線程對象,重要方法,start():開啟線程活動。它將使得run()方法在一個獨立的控制線程中被調用,需要注意的是同一個線程對象的start()方法只能被調用一次,如果調用多次,則會報RuntimeError錯誤。run():此方法代表線程活動。
Python的Queue模塊中提供了同步的、線程安全的隊列類,包括FIFO(先入先出)隊列Queue,LIFO(后入先出)隊列LifoQueue,和優先級隊列PriorityQueue。這些隊列都實現了鎖原語,能夠在多線程中直接使用。可以使用隊列來實現線程間的同步。Queue.put(item) 寫入隊列;Queue.get([block[, timeout]])獲取隊列
第三步,模塊化實現:Worker類 & Stock類
Worker類,主要實現功能:
-
傳入線程實例對象,調用init、start方法,重載run函數
-
work_queue存放要查詢的隊列,依次取出(FIFO),查詢結果存到result_queue隊列,當隊列滿,取出結果隊列中所有查詢結果,並打印
Stock類,主要實現功能:
-
初始化生產者、消費者隊列,生產者隊列為空,消費者隊列最大數量是查詢的股票數量
-
按預設的線程數據,初始化線程池,綁定Worker類
-
對於每次每只要查詢的股票,加入生產者隊列
-
定義爬蟲獲取數據的函數
最后,我們調用Worker類和Stock類,就能得到想要獲取的結果了。
運行結果展示
程序不僅可以獲取個股數據,也能夠獲取指數數據,我們默認訂閱了上證指數、深圳綜指、萬科A、浦發銀行,4個數據流,以下是默認運行結果的展示,我們打印了最新價、漲跌幅、昨收價等關鍵數據。我們按照一定的時間間隔,獲取數據並打印。
程序的擴展:在主程序入口,可修改查詢的股票數量,我們支持多股票同時查詢;查詢的時間間隔、查詢的線程數量的修改。
當然,我們也可以對該爬蟲程序做后續的進一步拓展,比如計算量化策略信號,落地數據作為回測數據,等等。
往期干貨分享推薦閱讀
Omega System Trading and Development Club內部分享策略Easylanguage源碼
【數量技術宅|量化投資策略系列分享】基於指數移動平均的股指期貨交易策略
AMA指標原作者Perry Kaufman 100+套交易策略源碼分享
【數量技術宅|金融數據系列分享】套利策略的價差序列計算,恐怕沒有你想的那么簡單
【數量技術宅|量化投資策略系列分享】成熟交易者期貨持倉跟隨策略
【數量技術宅|金融數據分析系列分享】為什么中證500(IC)是最適合長期做多的指數
商品現貨數據不好拿?商品季節性難跟蹤?一鍵解決沒煩惱的Python爬蟲分享
【數量技術宅|金融數據分析系列分享】如何正確抄底商品期貨、大宗商品
【數量技術宅|量化投資策略系列分享】股指期貨IF分鍾波動率統計策略
【數量技術宅 | Python爬蟲系列分享】實時監控股市重大公告的Python爬蟲