Python與金融分析基礎

本文轉載自查看原文 2017-12-24 15:21 3781 算法和數據結構

一、ipython的簡單使用

IPython:交互式的Python命令行

豐富的快捷鍵

TAB鍵自動完成

?：內省、命名空間搜索

!：執行系統命令

魔術命令：以%開始的命令

%run：執行文件代碼
%paste：執行剪貼板代碼
%timeit：評估運行時間
%pdb：自動調試

使用命令歷史
獲取輸入輸出結果
目錄標簽系統
IPython Notebook

jupyter notebook

在cmd上安裝jupyter 然后運行 jupyter notebook 即可

NumPy模塊：數組計算

NumPy是高性能科學計算和數據分析的基礎包。它是pandas等其他各種工具的基礎。

NumPy的主要功能：

ndarray，一個多維數組結構，高效且節省空間
無需循環對整組數據進行快速運算的數學函數
*讀寫磁盤數據的工具以及用於操作內存映射文件的工具
*線性代數、隨機數生成和傅里葉變換功能
*用於集成C、C++等代碼的工具

安裝方法：pip install numpy

引用方式：import numpy as np

NumPy：ndarray-多維數組對象

創建ndarray：np.array()
ndarray是多維數組結構，與列表的區別是：
數組對象內的元素類型必須相同
數組大小不可修改
常用屬性：
T        數組的轉置（對高維數組而言）
dtype    數組元素的數據類型
size    數組元素的個數
ndim    數組的維數
shape    數組的維度大小（以元組形式）

NumPy：ndarray-數據類型

ndarray數據類型：dtype：

布爾型：bool_
整型：int_ int8 int16 int32 int64
無符號整型：uint8 uint16 uint32 uint64
浮點型：float_ float16 float32 float64
復數型：complex_ complex64 complex128

NumPy：索引和切片

數組和標量之間的運算
a+1    a*3    1//a    a**0.5
同樣大小數組之間的運算
a+b    a/b    a**b
數組的索引：
一維數組：a[5]
多維數組：
列表式寫法：a[2][3]
新式寫法：a[2,3] (推薦)
數組的切片：
一維數組：a[5:8]    a[4:]        a[2:10] = 1
多維數組：a[1:2, 3:4]    a[:,3:5]        a[:,1]
與列表不同，數組切片時並不會自動復制，在切片數組上的修改會影響原數組。    【解決方法：copy()】

NumPy：布爾型索引

問題：給一個數組，選出數組中所有大於5的數。
答案：a[a>5]
原理：
a>5會對a中的每一個元素進行判斷，返回一個布爾數組
布爾型索引：將同樣大小的布爾數組傳進索引，會返回一個由所有True對應位置的元素的數組

問題2：給一個數組，選出數組中所有大於5的偶數。
問題3：給一個數組，選出數組中所有大於5的數和偶數。
答案：
a[(a>5) & (a%2==0)]
a[(a>5) | (a%2==0)]

NumPy：花式索引*

問題1：對於一個數組，選出其第1，3，4，6，7個元素，組成新的二維數組。
答案：a[[1,3,4,6,7]]

問題2：對一個二維數組，選出其第一列和第三列，組成新的二維數組。
答案：a[:,[1,3]]

NumPy：通用函數

通用函數：能同時對數組中所有元素進行運算的函數
常見通用函數：
一元函數：abs(絕對值), sqrt(開方), exp, log, ceil, floor, rint, trunc, modf(分別取出小數部分和整數部分), isnan, isinf, cos, sin, tan
二元函數：add, substract, multiply, divide, power, mod,  maximum, mininum,

ceil:向上取整 3.6 -》4 3.1-》4 -3.1-》-3

floor:向下取整：3.6-》3 3.1-》3 -3.1-》-4

rint(round):四舍五入：3.6-》4 3.1-》3 -3.6-》-4

trunc(int):向零取整（舍去小數點后） 3.6-》3 3.1-》3 -3.1-》-3

arr = np.arange(10)
arr.sum()#45  求和
arr.mean()#4.5 平均值
arr.cumsum()  #array([ 0,  1,  3,  6, 10, 15, 21, 28, 36, 45], dtype=int32) #等差數列 
arr.std() #、求標准差

補充知識：浮點數特殊值

浮點數：float
浮點數有兩個特殊值：
nan(Not a Number)：不等於任何浮點數（nan != nan）
inf(infinity)：比任何浮點數都大

NumPy中創建特殊值：np.nan    np.inf
在數據分析中，nan常被用作表示數據缺失值

NumPy：數學和統計方法

sum    求和
cumsum 求前綴和
mean    求平均數
std    求標准差
var    求方差
min    求最小值
max    求最大值
argmin    求最小值索引
argmax    求最大值索引

NumPy：隨機數生成

隨機數生成函數在np.random子包內
常用函數
rand        給定形狀產生隨機數組（0到1之間的數）
randint        給定形狀產生隨機整數
choice        給定形狀產生隨機選擇
shuffle        與random.shuffle相同
uniform        給定形狀產生隨機數組

pandas：數據分析

pandas是一個強大的Python數據分析的工具包。
pandas是基於NumPy構建的。

pandas的主要功能

具備對其功能的數據結構DataFrame、Series
集成時間序列功能
提供豐富的數學運算和操作
靈活處理缺失數據

安裝方法：pip install pandas
引用方法：import pandas as pd

pandas：Series

Series是一種類似於一位數組的對象，由一組數據和一組與之相關的數據標簽（索引）組成。

創建方式：

pd.Series([4,7,-5,3]) 
pd.Series([4,7,-5,3],index=['a','b','c','d'])               
pd.Series({'a':1, 'b':2})             
pd.Series(0, index=['a','b','c','d’])

pandas：Series特性

Series支持數組的特性：
從ndarray創建Series：Series(arr)
與標量運算：sr*2
兩個Series運算：sr1+sr2
索引：sr[0], sr[[1,2,4]]
切片：sr[0:2]（切片依然是視圖形式）
通用函數：np.abs(sr)
布爾值過濾：sr[sr>0]
統計函數：mean() sum() cumsum()

Series支持字典的特性（標簽）：
從字典創建Series：Series(dic), 
in運算：’a’ in sr、for x in sr
鍵索引：sr['a'], sr[['a', 'b', 'd']]
鍵切片：sr['a':'c']
其他函數：get('a', default=0)等

^{pandas：整數索引}

整數索引的pandas對象往往會使新手抓狂。
例：
sr = np.Series(np.arange(4.))
sr[-1] 

如果索引是整數類型，則根據整數進行數據操作時總是面向標簽的。
loc屬性        以標簽解釋
iloc屬性        以下標解釋

pandas：Series數據對齊

pandas在運算時，會按索引進行對齊然后計算。如果存在不同的索引，則結果的索引是兩個操作數索引的並集。

例：
sr1 = pd.Series([12,23,34], index=['c','a','d'])
sr2 = pd.Series([11,20,10], index=['d','c','a',])
sr1+sr2
sr3 = pd.Series([11,20,10,14], index=['d','c','a','b'])
sr1+sr3

如何在兩個Series對象相加時將缺失值設為0？
sr1.add(sr2, fill_value=0)
靈活的算術方法：add, sub, div, mul

pandas：Series缺失數據

缺失數據：使用NaN（Not a Number）來表示缺失數據。其值等於np.nan。內置的None值也會被當做NaN處理。

處理缺失數據的相關方法：

dropna()        過濾掉值為NaN的行
fillna()        填充缺失數據
isnull()        返回布爾數組，缺失值對應為True
notnull()        返回布爾數組，缺失值對應為False

pandas：DataFrame

DataFrame是一個表格型的數據結構，含有一組有序的列。
DataFrame可以被看做是由Series組成的字典，並且共用一個索引。

創建方式：

pd.DataFrame({'one':[1,2,3,4],'two':[4,3,2,1]})
pd.DataFrame({'one':pd.Series([1,2,3],index=['a','b','c']), 'two':pd.Series([1,2,3,4],index=['b','a','c','d'])})
......

csv文件讀取與寫入：

df.read_csv('filename.csv')
df.to_csv()

pandas：DataFrame查看數據

查看數據常用屬性及方法：

index                    獲取索引
T                        轉置
columns                    獲取列索引
values                    獲取值數組
describe()                獲取快速統計

DataFrame各列name屬性：列名
rename(columns={})

pandas：DataFrame索引和切片

DataFrame有行索引和列索引。

DataFrame同樣可以通過標簽和位置兩種方法進行索引和切片。

^{DataFrame使用索引切片：}

方法1：兩個中括號，先取列再取行。    df['A'][0]
方法2（推薦）：使用loc/iloc屬性，一個中括號，逗號隔開，先取行再取列。
loc屬性：解釋為標簽
iloc屬性：解釋為下標
向DataFrame對象中寫入值時只使用方法2
行/列索引部分可以是常規索引、切片、布爾值索引、花式索引任意搭配。（注意：兩部分都是花式索引時結果可能與預料的不同）

通過標簽獲取

df['A']
df[['A', 'B']]
df['A'][0]
df[0:10][['A', 'C']]
df.loc[:,['A','B']]
df.loc[:,'A':'C']
df.loc[0,'A']
df.loc[0:10,['A','C']]

通過位置獲取：

df.iloc[3]
df.iloc[3,3]
df.iloc[0:3,4:6]
df.iloc[1:5,:]
df.iloc[[1,2,4],[0,3]]

通過布爾值過濾

df[df['A']>0]
df[df['A'].isin([1,3,5])]
df[df<0] = 0

pandas：DataFrame數據對齊與缺失數據

DataFrame對象在運算時，同樣會進行數據對齊，行索引與列索引分別對齊。
結果的行索引與列索引分別為兩個操作數的行索引與列索引的並集。

DataFrame處理缺失數據的相關方法：
dropna(axis=0,where='any',…)
fillna()
isnull()
notnull()

pandas：其他常用方法

pandas常用方法（適用Series和DataFrame）：
mean(axis=0,skipna=False)
sum(axis=1)
sort_index(axis, …, ascending)        按行或列索引排序
sort_values(by, axis, ascending)    按值排序
NumPy的通用函數同樣適用於pandas

apply(func, axis=0)    將自定義函數應用在各行或者各列上                                  ，func可返回標量或者Series
applymap(func)        將函數應用在DataFrame各個元素上
map(func)        將函數應用在Series各個元素上

pandas：時間對象處理

時間序列類型：
時間戳：特定時刻
固定時期：如2017年7月
時間間隔：起始時間-結束時間
Python標准庫：datetime
date time datetime timedelta
dt.strftime()
strptime()
靈活處理時間對象：dateutil包
dateutil.parser.parse()
成組處理時間對象：pandas
pd.to_datetime(['2001-01-01', '2002-02-02'])

產生時間對象數組：date_range
start        開始時間
end        結束時間
periods        時間長度
freq        時間頻率，默認為'D'，可選H(our),W(eek),B(usiness),S(emi-)M(onth),(min)T(es), S(econd), A(year),…

pandas：時間序列

時間序列就是以時間對象為索引的Series或DataFrame。

datetime對象作為索引時是存儲在DatetimeIndex對象中的。

時間序列特殊功能：
傳入“年”或“年月”作為切片方式
傳入日期范圍作為切片方式
豐富的函數支持：resample(), strftime(), ……
批量轉換為datetime對象：to_pydatetime()

pandas：從文件讀取

讀取文件：從文件名、URL、文件對象中加載數據
read_csv        默認分隔符為csv
read_table    默認分隔符為\t
read_excel    讀取excel文件
讀取文件函數主要參數：
sep        指定分隔符，可用正則表達式如'\s+'
header=None    指定文件無列名
name        指定列名
index_col    指定某列作為索引
skip_row        指定跳過某些行
na_values    指定某些字符串表示缺失值
parse_dates    指定某些列是否被解析為日期，布爾值或列表

pandas：寫入到文件

寫入到文件：
to_csv
寫入文件函數的主要參數：
sep
na_rep        指定缺失值轉換的字符串，默認為空字符串
header=False    不輸出列名一行
index=False    不輸出行索引一列
cols        指定輸出的列，傳入列表

其他文件類型：json, XML, HTML, 數據庫
pandas轉換為二進制文件格式（pickle）:
save
load

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python與金融量化分析----金融與量化投資 python數據分析之金融欺詐行為檢測 Python實戰——基於股票的金融數據量化分析 day32 Python與金融量化分析(二) python金融與量化分析----Jupyter Notebook使用 python金融與量化分析------Matplotlib(繪圖和可視化) Python相關分析—一個金融場景的案例實操 Python金融大數據分析 python案例：金融營銷活動中欺詐用戶行為分析 python的zigzag實現及金融技術指標分析庫

Python與金融分析基礎

一 、ipython的簡單使用

豐富的快捷鍵

魔術命令：以%開始的命令

jupyter notebook

NumPy模塊：數組計算

NumPy：ndarray-多維數組對象

NumPy：ndarray-數據類型

NumPy：索引和切片

NumPy：布爾型索引

NumPy：花式索引*

NumPy：通用函數

補充知識：浮點數特殊值

NumPy：數學和統計方法

NumPy：隨機數生成

pandas：數據分析

pandas的主要功能

pandas：Series

創建方式：

pandas：Series特性

pandas：整數索引

pandas：Series數據對齊

pandas：Series缺失數據

pandas：DataFrame

pandas：DataFrame查看數據

pandas：DataFrame索引和切片

DataFrame使用索引切片：

通過標簽獲取

通過位置獲取：

通過布爾值過濾

pandas：DataFrame數據對齊與缺失數據

pandas：其他常用方法

pandas：時間對象處理

pandas：時間序列

pandas：從文件讀取

pandas：寫入到文件

免責聲明！

一、ipython的簡單使用

^{pandas：整數索引}

^{DataFrame使用索引切片：}