Python數據分析之股票數據


最近股市比較火,我7月初上車了,現在已經下了。中間雖然吃了點肉,但下車的時候都虧進去了,最后連點湯都沒喝着。

這篇文章我們就用python對股票數據做個簡單的分析。數據集是從1999年到2016年上海證券交易所的1095只股票。

共1000個文件。

我們的分析思路大致如下:

  • 每年新發股票數
  • 目前市值最大的公司有哪些
  • 股票一段時間的漲跌幅如何
  • 牛市的時候,個股表現如何

首先導入模塊

import pandas as pd
import numpy as np import os import seaborn as sns import matplotlib.pyplot as plt # 繪圖顯示中文 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False 

pandas讀文件

file_list = os.listdir('./data/a-share/')
 pieces = [] for file_name in file_list:  path = './data/a-share/%s' % file_name  file = pd.read_csv(path, encoding ='gb2312')  pieces.append(file)  shares = pd.concat(pieces) 

使用read_csv讀文件的時候需要指定文件編碼encoding ='gb2312'。將各個文件的DataFrame合並后,將索引重置一下,並預覽一下數據

shares.reset_index(inplace=True, drop=True)
shares.head() 

這里我們最關注的列是日期代碼簡稱收盤價

按照分析思路,我們首先來看看上市公司的總數

len(shares['代碼'].unique())

對股票代碼去重、計數可以看到一共有1095家上市公司。那我們再看看每年新增的上市公司有多少家

# 計算每只股票的最早交易時間(即:上市時間)
shares_min_date = shares.groupby('簡稱').agg({'日期':'min'}) shares_min_date['上市年份'] = shares_min_date['日期'].apply(lambda x: str(x)[:4])  # 每年上市公司的數量 shares_min_date.groupby('上市年份').count().plot() 

可以看到,多的時候每年60-80家,而05年-13年這段時間上市后的公司特別少,尤其是13年只有1家,原因是13年暫停了IPO。

下面我們再來看看數據集中最新的時間點(2016-06-08),市值較大的公司有哪些

shares_market_value = shares[shares['日期'] == '2016-06-08'][['簡稱', '總市值(元)']].sort_values(by='總市值(元)', ascending=False)
 # 市值最大的公司 top10 tmp_df = shares_market_value.head(10)  # 畫圖 sns.barplot(x=tmp_df['總市值(元)'], y=tmp_df['簡稱']) 

截至16年6月8號,工商銀行(愛存不存)的市值最高1.5萬億,不愧是宇宙第一大行。並且能發現市值前十的公司大部分是銀行。

下面再來看看,從11.06.09 - 16.06.085年時間里個股漲跌情況。起點選11.06.09的原因是這一天包含了900左右只股票,樣本較大。然后,我們抽取這兩天股票的收盤價,計算漲跌幅

shares_110609 = shares[shares['日期'] == '2011-06-09'][['代碼', '簡稱', '收盤價(元)']]
shares_160609 = shares[shares['日期'] == '2016-06-08'][['代碼', '收盤價(元)']]  # 按照股票代碼將2天數據關聯 shares_price = shares_110609.merge(shares_160609, on='代碼') shares_price 

一共有879只股票

# 多少家股票是上漲的
shares_price[shares_price['漲跌幅(%)'] > 0].count() 
# 多少家股票是上漲的
shares_price[shares_price['漲跌幅(%)'] < 0].count() 

可以看到,上漲的股票627只,占比71%。那我們再來看看,上漲的股票,漲幅分布情況

bins = np.array([0, 40, 70, 100, 1700])
# 股價上漲的公司 shares_up = shares_price[shares_price['漲跌幅(%)'] > 0] # 按漲幅進行分組 shares_up['label'] = pd.cut(shares_up['漲跌幅(%)'], bins) # 分組統計 up_label_count = shares_up[['label', '代碼']].groupby('label').count() up_label_count['占比'] = up_label_count['代碼'] / up_label_count.sum().values sns.barplot(x=up_label_count['占比'], y=up_label_count.index) 

漲幅分布還是比較極端的,雖然上漲的股票總體比較高,但上漲的股票中有30%只股票漲幅不足40%,也就是平均一年漲8%,如果理財年收益10%算及格的話,8%明顯偏低了。再加上跌的股票,收益率低於10%的股票大於50%,所以股市的錢也不是那么好掙的。

當然也有踩狗屎運的時候,比如買到了下面這些股票並且長期持有

# 漲幅最大的公司
tmp_df = shares_up.sort_values(by='漲跌幅(%)', ascending=False)[:8] sns.barplot(y=tmp_df['簡稱'], x=tmp_df['漲跌幅(%)']) 

金證股份持有5年后可以翻16倍。

同樣的方式,我們可以看看股票跌幅分布

因為代碼類似,這里就不貼了。從數據上將近70%的股票5年后跌幅在0-40%的區間。

最后一個有意思的數據,我們看看牛市的時候個股漲跌是怎么樣的。我們選擇14.06.3015.06.08這兩天個股的漲跌情況。分析思路跟上面類似,我就直接說數據了。

牛市期間99.6%的股票都是漲的,也就是說個股基本都在上漲。來看看漲幅分布

可以看到,86%只股票翻了一番,所以牛市來了,基本上閉着眼選股都能掙錢。也不知道這種大牛市什么時候能再來一次,當然了,牛市來了能不能把握住是個大問題。

我的分析就到這里了,其實分析有意思的數據還有很多,比如結合一些市盈率等其他維度進行分析,有興趣的朋友可以自行探索,我覺得還有一個更有挑戰性的分析是預測個股的走勢,雖然實踐上不可行,但從學習角度來看還是挺值得研究的,如果大家點贊較多,我下周考慮寫一下。

數據和源碼已經打包,公眾號回復關鍵字股票即可。

歡迎公眾號 「渡碼」 輸出別地兒看不到的干貨。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM