作者:李洪成
摘自:http://cos.name/wp-content/uploads/2013/11/ChinaR2013SH_Nov03_04_LiHongcheng.pdf
高頻數據
- 金融市場中,逐筆交易數據(transaction by transaction data) 或逐秒記錄數據 (tick by tick data) 被稱為高頻數據。紐約股票交易所的交易行情數據庫包含了綜合磁帶系統報告的所有證券的交易和報價記錄(Trades and Quotes- NYSE TAQ), 另外WRDS TAQ, Reuters, Bloomberg等。
高頻數據的特點
- 數據量大:一只股票一天中可以有幾百萬條交易
- 交易間的時間間隔是不規則的,不是等間隔
- 保存的數據由於多種原因會包含錯誤
- 不正確的交易量
- 失時效的價格
- 一秒鍾的多重交易
- 不准確的時間 (innaccurate times)
某股票2010年10月4日到10月15日
相鄰兩個交易的價格變動頻率

高頻金融數據用於研究與交易過程和市場微觀結構相關的大量問題
- 股票買賣報價的動態性
- 市場的流動性
- 算法交易
- 收益的實際波動率
Data Structure of Trade data
- PRICE 交易價格
- SIZE 交易股數
- COND: 交易條件代碼
- CORR: 修改標識, 交易為正常即沒有經 過校正、修改或者被標記為取消
- G127 Combined "G", Rule 127, and stopped stock trade
Data Structure of Quote data
- BID:賣價
- BIDSIZ:賣出量,以100股為單位
- OFR:買價
- OFRSIZ:買入量
- MODE:報價條件標識
R的高頻數據分析包
- R中針對高頻數據的添加包:highfrequency
- 該包最新版本為0.2,基於R 2.12.0或者更高 版本,依賴於 xts, zoo兩個包。 highfrequency是另外兩個已有R包的更新版 - 兩個都被移除了
- RTAQ (Cornelissen and Boudt 2012 ) TradeAnalytics project
- realized (Payseur 2008)
Highfrequency主要功能
- 組織高頻數據
- 高頻數據的清理、整理
- 高頻數據的匯總
- 高頻數據的相關模型:
- 波動率模型
- 流動性
三類高頻數據
- NYSE TAQ數據庫中的 .txt文件
- WRDS數據庫中的 .csv文件
- Tickdata.com的.asc文件
- 函數convert()可以把上述三類數據轉換為xts對象
convert(
from,
to,
datasource,
datadestination,
trades=TRUE,
quotes=FALSE, ticker=c("AA","AAPL"),
dir=TRUE,
extension="txt", header=FALSE,
tradecolnames=NULL, quotecolnames=NULL,
format="%Y%m%d%H:%M:%S");
把數據從硬盤載入 R 中
- 函數TAQLoad把數據載入 R 中
高頻數據的處理
等間隔數據、數據同步
- aggregatets(data,on="minutes",k=1)
- refreshTime(list(stock1,stock2))
Realized volatility measures
波動率預測
- HAR-模型 Heterogeneous Autoregressive
- 它實現了三種類型的HAR模型
- HAR-RV:
- HAR-RV-J:
- HAR-RV-CJ:Jump + Continuous Sample path Component Variation
harModel(
data,
periods = c(1, 5, 22),
periodsJ = c(1,5,22),
leverage=NULL,
RVest = c("rCov", "rBPCov"),
type = "HARRV",
jumptest = "ABDJumptest",
alpha = 0.05,
h = 1,
transform = NULL, ...)
HAR-RV: Dow Jones Industrial Average in 2008