按照百分比取出數據的去極值方法

本文轉載自查看原文 2019-08-27 19:55 758 量化交易

去極值的方法，可以用均值加n倍的方差，來過濾，也可以用中位數加上下范圍來過濾。如聚寬就提供了winsorize和winsorize_med等方法。

但我總覺得不合心意，第一，這個過程本來就是需要不斷調整參數的，最好能夠按照一定步長來取數據，逐條顯示取出數據的數量，占比，方差等。此外，參數最好指定數據的百分比，用戶只要指定百分比，就能夠獲得相應的數據。基於此，設計了一個函數。

from pandas import Series, DataFrame
from jqfactor import winsorize_med
def data_dist(data,step=0.1,maxstep=1,outratio=0.9): #以中位數為中心，數據的分布
    print("數據分布，以中位數為中心，默認步長0.1，通過step參數指定，max指定最大step，outratio指定輸出百分比(0.9)")
    med=data[0].median()
    d=max(data[0].max()-med,med-data[0].min())  #最大幅度
    f=step    
    out=None
    while(f<maxstep):
        d2=data[(data[0]<med+f*d) & (data[0]>med-f*d)]
        print("%.2f %.2f%% %d var:%.2f"%(f,len(d2)*100.0/len(data),len(d2),d2[0].std()/med))
        if len(d2)*1.0/len(data)>=outratio and out is None:
            out=d2.copy(deep=False)
        f+=step
    return out

這個方法融交互和獲取數據於一體，可以一邊交互測試，一邊設定參數，很python！

取廣晟有色1000天的成交量分析，看看效果

arr=get_bars("600259.XSHG", count=1000, unit='1d',fields=['date', 'high','low','volume'],end_dt="2018-12-31")
vol=DataFrame(arr["volume"])
o=data_dist(vol,step=0.01,maxstep=0.5,outratio=0.8)
vol.plot()
o.plot()
print("%d"%(vol.median()))
print("%d"%(vol.mean()))
print("%d"%(o.mean()))

把dataframe傳遞進去就可以了，默認以中位數為中心，中位數到上下限的最大距離為參考，以指定步長為上下界，取出數據。

可以看出，按80%取出的數據，比原始數據要更加集中，中心點也更加合理

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MySql 百分比 MySQL百分比顯示和顯示前百分之幾的方法 Java工具-計算百分比方法從后台拿到echarts的數據值，求出百分比給echarts鼠標懸浮狀態的數據加上百分比“%” Python_生成隨機百分比的方法 Java 使用 int 數據計算百分比 excel將百分比數據轉為數值格式【數據結構和算法】之權重，百分比算法 Java 數字轉百分比%