python---scipy模塊

本文轉載自查看原文 2018-12-31 17:40 8598 Python

一簡單介紹

SciPy是基於NumPy開發的高級模塊，它提供了許多數學算法和函數的實現，用於解決科學計算中的一些標准問題。例如數值積分和微分方程求解，擴展的矩陣計算，最優化，概率分布和統計函數，甚至包括信號處理等。
作為標准科學計算程序庫，SciPy類似於Matlab的工具箱，它是Python科學計算程序的核心包，它用於有效地計算NumPy矩陣，與NumPy矩陣協同工作。
SciPy庫由一些特定功能的子模塊構成，如下表所示：

模塊	功能
cluster	矢量量化 / K-均值
constants	物理和數學常數
fftpack	傅里葉變換
integrate	積分程序
interpolate	插值
io	數據輸入輸出
linalg	線性代數程序
ndimage	n維圖像包
odr	正交距離回歸
optimize	優化
signal	信號處理
sparse	稀疏矩陣
spatial	空間數據結構和算法
special	任何特殊數學函數
stats	統計

以上子模塊全依賴於NumPy且相互獨立，導入NumPy和這些SciPy模塊的標准方式如下，示例代碼：

import numpy as np from scipy import stats

以上代碼表示從SciPy模塊中導入stats子模塊，SciPy的其他子模塊導入方式與之相同，限於機器學習研究領域及篇幅限制，本章將重點介紹linalg、optimize、interpolate及stats模塊。

二常用庫的介紹

2.1 線性代數linalg模塊

linalg是Linear Algebra的縮寫，NumPy和SciPy都提供了線性代數函數庫linalg，SciPy的線性代數庫比NumPy更加全面。

（1）基本運算

linalg包含了許多方陣（包括矩陣）的基本運算函數，scipy.linalg.det()函數計算方陣的行列式，示例代碼：

>>> from scipy import linalg >>> arr = np.array([[1, 2], [3, 4]]) >>> linalg.det(arr) -2.0
>>> arr = np.array([[3, 2],[6, 4]]) >>> linalg.det(arr) 0.0
>>> linalg.det(np.ones((3, 4)))        #無論行列式還是逆矩陣只適用於n階矩陣的求解
Traceback (most recent call last): ... ValueError: expected square matrix

scipy.linalg.inv()函數計算方陣的逆，示例代碼：

>>> arr = np.array([[1, 2], [3, 4]]) >>> iarr = linalg.inv(arr) >>> iarr array([[-2. ,  1. ], [ 1.5, -0.5]]) >>>np.allclose(np.dot(arr, iarr), np.eye(2))      #numpy.allclose()函數用於比較兩方陣所有對應元素值，如果完全相同返回真(True)，否則返回假(False)
True

以下計算奇異陣（行列式為0）的逆，其結果將會報錯（LinAlgError），示例代碼：

>>>arr = np.array([[3, 2], [6, 4]]) >>>linalg.inv(arr) Traceback (most recent call last): ... ...LinAlgError: singular matrix

scipy.linalg.norm()函數計算方陣的范數，示例代碼：

>>>A = np.matrix(np.random.random((2, 2))) >>>A >>>linalg.norm(A) #默認2范數
>>>linalg.norm(A, 1) #1范數
>>>linalg.norm(A, np.inf) #無窮范數

（2）解線性方程組

scipy.linalg.solve(A,b)和numpy.linalg.solve(A,b)可以用來解線性方程組Ax=b，即計算x=A^-1b。這里，A是mm的方形矩陣，x和b是長為m的向量。有時候A是固定的，需要對多組b進行求解，因此第二個參數也可以是mn的矩陣B。這樣計算出來的X也是m*n的矩陣，相當於計算A^-1B。
在一些矩陣公式中經常會出現類似於A^-1B的運算，它們都可以用solve(A, B)計算，這要比直接逆矩陣然后做矩陣乘法更快捷一些，下面的程序比較solve()和逆矩陣的運算速度，示例代碼：

>>> import numpy as np >>> from scipy import linalg >>> m, n = 500, 50 >>> A = np.random.rand(m, m) >>> B = np.random.rand(m, n) >>> X1 = linalg.solve(A, B) >>> X2 = np.dot(linalg.inv(A), B) >>> print(np.allclose(X1, X2)) >>> %timeit linalg.solve(A, B) 13.3 ms ± 834 µs per loop (mean ± std. dev. of 7 runs, 100 loops each) >>> %timeit np.dot(linalg.inv(A), B) 22.4 ms ± 1.48 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

(3) 特征值和特征向量

n*n的矩陣A可以看作n維空間中的線性變換。若x為n維空間中的一個向量，那么A與x的矩陣乘積就是對x進行線性變換之后的向量。如果x是線性變換的特征向量，那么經過這個線性變換之后，得到的新向量仍然與原來的x保持在同一方向上，但其長度也許會改變。特征向量的長度在該線性變換下縮放的比例稱為特征值。即特征向量x滿足如下等式，λ的值可以是一個任意復數：Ax=λx。
下面以二維平面上的線性變換矩陣為例，演示特征值和特征向量的幾何含義。通過linalg.eig(A)計算矩陣A的兩個特征值evalues和特征向量evectors，在evectors中，每一列是一個特征向量。示例代碼：

>>> A = np.array([[1, -0.3], [-0.1, 0.9]]) >>> evalues, evectors = linalg.eig(A)

2.2 擬合與求解optimize模塊

SciPy的optimize模塊提供了許多數值優化的算法，一些經典的優化算法包括線性回歸、函數極值和根的求解以及確定兩函數交點的坐標等。下面首先介紹簡單的線性回歸模型，然后逐漸深入解決非線性數據擬合問題。
（1）擬合 curve_fit()函數

線性回歸有許多擬合數據的方法，我們將使用curve_fit()函數，它利用的是最小二乘算法。最小二乘算法是一種數學優化技術，在機器學習領域最有名和有效的算法之一。它通過最小化誤差的平方和尋找數據的最佳函數匹配。利用最小二乘法可以簡便地求得未知的數據，並使得這些求得的數據與實際數據之間誤差的平方和為最小。
以下示例中，我們首先從已知函數中生成一些帶有噪聲的數據，然后使用curve_fit()函數擬合這些噪聲數據。示例中的已知函數我們使用一個簡單的線性方程式，即f(x)=ax+b。示例代碼：

import numpy as np from scipy.optimize import curve_fit import matplotlib.pyplot as plt
 #創建函數模型用來生成數據
def func(x, a, b): return a*x + b #生成干凈數據
x = np.linspace(0, 10, 100) y = func(x, 1, 2) #對原始數據添加噪聲
yn = y + 0.9 * np.random.normal(size=len(x)) #使用curve_fit函數擬合噪聲數據
popt, pcov = curve_fit(func, x, yn) #輸出給定函數模型func的最優參數
print(popt)

結果為：

[ 0.99734363  1.96064258]

如果有一個很好的擬合效果，popt返回的是給定模型的最優參數。我們可以使用pcov的值檢測擬合的質量，其對角線元素值代表着每個參數的方差。

>>>print(pcov) [[ 0.00105056 -0.00525282] [-0.00525282  0.03519569]]

通過以下代碼繪制出了擬合曲線與實際曲線的差異，示例代碼：

yfit = func(x,popt[0],popt[1]) 

plt.plot(x, y, color="green",label = "actual data")
plt.plot(x, yn, "o", label = "actual data with noise")
plt.plot(x, yfit,color="yellow", label = "fitting data")
plt.legend(loc = "best")
plt.show()

下面做進一步研究，我們可以通過最小二乘擬合高斯分布（Gaussian profile），一種非線性函數：α*exp(-(x-μ)²/2σ²)
在這里，α表示一個標量，μ是期望值，而σ是標准差。示例代碼：

import numpy as np 
from scipy.optimize import curve_fit 
import matplotlib.pyplot as plt
#創建一個函數模型用來生成數據
def func(x, a, b, c): return (a*np.exp(-(x-b)**2/2*c**2)) #生成原始數據
x = np.linspace(0, 10, 100) y = func(x, 1, 5, 2) #對原始數據增加噪聲
yn = y + 0.2*np.random.normal(size=len(x)) #使用curve_fit函數擬合噪聲數據
popt, pcov = curve_fit(func, x, yn) #popt返回最擬合給定的函數模型func的參數值，如popt[0]=a,popt[1]=b,popt[2]=3
print(popt)

結果為：

[-0.49627942  2.78765808 28.76127826]

通過以下代碼繪制出了擬合曲線與實際曲線的差異，示例代碼：

p0=[1.2,4,3] #初步猜測參數，如果沒有，默認全為1，即[1,1,1]
popt, pcov = curve_fit(func, x, yn,p0=p0) #popt返回最擬合給定的函數模型func的參數值，如popt[0]=a,popt[1]=b,popt[2]=3
print(popt) yfit = func(x,popt[0],popt[1],popt[2]) plt.plot(x, y, color="green",label = "actual data") plt.plot(x, yn, "o", label = "actual data with noise") plt.plot(x, yfit, color="yellow", label = "fitting data") plt.legend(loc = "best") plt.show()

結果如下圖所示：

通過以上繪圖，我們可以看出對高斯分布函數擬合的效果是可以接受的。
隨着研究的深入，我們可以擬合一個多重高斯分布的一維數據集。現在將這個函數擴展為包含兩個不同輸入值的高斯分布函數。這是一個擬合線性光譜的經典實例，示例代碼如下：

import numpy as np from scipy.optimize import curve_fit import matplotlib.pyplot as plt def func(x, a0, b0, c0, a1, b1, c1): return a0*np.exp(-(x - b0) ** 2/(2 * c0 ** 2)) + a1 * np.exp(-(x-b1) ** 2/(2 * c1 ** 2)) #生成原始數據
x = np.linspace(0, 20, 200) y = func(x, 1, 3, 1, -2, 15, 0.5) #對原始數據增加噪聲
yn = y + 0.9 * np.random.normal(size=len(x)) #如果要擬合一個更加復雜的函數，提供一些估值假設對擬合效果更好
guesses = [1, 3, 1, 1, 15, 1] #使用curve_fit函數擬合噪聲數據
popt, pcov = curve_fit(func, x, yn, p0=guesses) #popt返回最擬合給定的函數模型func的參數值，如popt[0]=a,popt[1]=b,popt[2]=3
print(popt) yfit = func(x,popt[0],popt[1],popt[2],popt[3],popt[4],popt[5]) plt.plot(x, y, color="green",label = "actual data") plt.plot(x, yn, "o", label = "actual data with noise") plt.plot(x, yfit, color="yellow", label = "fitting data") plt.legend(loc = "best") plt.show()

結果如下圖所示：

（2）最小二乘擬合leastsq()函數

假設有一組實驗數據(x[i], y[i])，我們知道它們之間的函數關系:y = f(x)，通過這些已知信息，需要確定函數中的一些參數項。例如，如果f是一個線型函數f(x) = k*x+b，那么參數k和b就是我們需要確定的值。如果將這些參數用 p 表示的話，那么我們就是要找到一組 p 值使得如下公式中的S函數最小：

這種算法被稱之為最小二乘擬合(Least-square fitting)。optimize模塊提供了實現最小二乘擬合算法的函數leastsq()，leastsq是least square的簡寫，即最小二乘法。下面是用leastsq()對線性函數進行擬合的程序，示例代碼：

import matplotlib.pylab as plt
import numpy as np from scipy import optimize    # 從scipy庫引入optimize模塊
 X = np.array([ 8.19, 2.72, 6.39, 8.71, 4.7, 2.66, 3.78 ]) Y = np.array([ 7.01, 2.78, 6.47, 6.71, 4.1, 4.23, 4.05 ]) def residuals(p): #計算以p為參數的直線和原始數據之間的誤差
        k, b = p return Y-(k*X+b) # leastsq()使得residuals()的輸出數組的平方和最小，參數的初始值為[1, 0]
r = optimize.leastsq(residuals, [1,0]) k, b = r[0] print("k=", k, "b=", b)

結果為：

k = 0.613495349193  b = 1.79409254326

可以通過通過繪圖對比真實數據和擬合數據的誤差，示例代碼；

plt.plot(X, Y, "o", label = "actual data") plt.plot(X, k*X+b, label = "fitting data") plt.legend(loc = "best") plt.show()

結果為：

繪圖中的圓點表示真實數據點，實線表示擬合曲線，由此看出擬合參數得到的函數和真實數據大體一致。接下來，用leastsq()對正弦波數據進行擬合，示例代碼：

import numpy as np from scipy.optimize import leastsq   # 從scipy庫的optimize模塊引入leastsq函數
import matplotlib.pyplot as plt    # 引入繪圖模塊pylab，並重命名為pl

def func(x, p): """ 數據擬合所用的函數: A*sin(2*pi*k*x + theta) """ A, k, theta = p return A*np.sin(2*np.pi*k*x+theta) def residuals(p, y, x): """ 實驗數據x, y和擬合函數之間的差，p為擬合需要找到的系數 """
    return y - func(x, p) x = np.linspace(0, -2*np.pi, 100) A, k, theta = 10, 0.34, np.pi/6   # 真實數據的函數參數
y0 = func(x, [A, k, theta])   # 真實數據
 y1 = y0 + 2 * np.random.randn(len(x))   # 加入噪聲之后的實驗數據，噪聲是服從標准正態分布的隨機量 
 p0 = [7, 0.2, 0]   # 第一次猜測的函數擬合參數

# 調用leastsq進行數據擬合 # residuals為計算誤差的函數 # p0為擬合參數的初始值 # args為需要擬合的實驗數據
plsq = leastsq(residuals, p0, args=(y1, x)) print ("actual parameter:", [A, k, theta]) # 真實參數
print ("fitting parameter", plsq[0]) # 實驗數據擬合后的參數
 plt.plot(x, y0, label="actual data") # 繪制真實數據
plt.plot(x, y1, label="experimental data with noise")  # 帶噪聲的實驗數據
plt.plot(x, func(x, plsq[0]), label="fitting data")    # 擬合數據
plt.legend() plt.show()

這個例子中我們要擬合的函數是一個正弦波函數，它有三個參數 A, k, theta ，分別對應振幅、頻率、相角。假設我們的實驗數據是一組包含噪聲的數據 x, y1，其中y1是在真實數據y0的基礎上加入噪聲的到了。通過leastsq函數對帶噪聲的實驗數據x, y1進行數據擬合，可以找到x和真實數據y0之間的正弦關系的三個參數： A, k, theta。下面是程序的輸出：

>>>actual parameter: [10, 0.34, 0.5235987755982988] >>>fitting parameter [ 10.12646889   0.33767587   0.48944317]

我們看到擬合參數雖然和真實參數完全不同，但是由於正弦函數具有周期性，實際上擬合參數得到的函數和真實參數對應的函數是一致的。
（3）標量函數極值求解fmin()函數
首先定義以下函數，然后繪制它，示例代碼：

import numpy as np from scipy import optimize import matplotlib.pyplot as plt def f(x): return x**2 + 10*np.sin(x) x = np.arange(-10, 10, 0.1) plt.plot(x, f(x)) plt.show()

結果如下圖所示：

如圖所示，該函數大約在-1.3有個全局最小值，在3.8有個局部最小值。找到這個函數最小值一般而有效的方法是從初始點使用梯度下降法。BFGS算法是做這個的好方法，BFGS算法被認為是數值效果最好的擬牛頓法，是由Broyden，Fletcher，Goldfarb，Shanno四個人分別提出的，故稱為BFGS校正。具體算法思想及解釋請查閱相關資料，這里直接通過optimize.fmin_bfgs()函數求解最小值，示例代碼：

>>> optimize.fmin_bfgs(f, 0) Optimization terminated successfully. Current function value: -7.945823 Iterations: 5 Function evaluations: 24 Gradient evaluations: 8 array([-1.30644003])

這個方法一個可能的問題在於，如果函數有局部最小值，算法會因初始點不同找到這些局部最小而不是全局最小，示例代碼：

>>> optimize.fmin_bfgs(f, 3, disp=0)#disp是布爾型數據，如果為1，打印收斂消息 array([ 3.83746663])

如果我們不知道全局最小值的鄰近值來選定初始點，我們需要借助於耗費資源些的全局優化。為了找到全局最小點，最簡單的算法是蠻力算法，該算法求出給定格點的每個函數值。示例代碼：

>>>grid = (-10, 10, 0.1) >>>xmin_global = optimize.brute(f, (grid, )) >>>xmin_global array([-1.30641113])

對於大點的格點，scipy.optimize.brute()變得非常慢。scipy.optimize.anneal()提供了使用模擬退火的替代函數。對已知的不同類別全局優化問題存在更有效率的算法，但這已經超出scipy的范圍。為了找到局部最小，我們把變量限制在(0,10)之間，使用scipy.optimize.fminbound()，示例代碼：

>>> xmin_local = optimize.fminbound(f, 0, 10) >>> xmin_local 3.8374671...

下面的程序通過求解卷積的逆運算演示fmin的功能。對於一個離散線性時不變系統h, 如果輸入是x，那么其輸出y可以用x和h的卷積表示：

現在的問題是如果已知系統的輸入x和輸出y，如何計算系統的傳遞函數h；或者如果已知系統的傳遞函數h和系統的輸出y，如何計算系統的輸入x。這種運算被稱為反卷積運算，是十分困難的，特別是在實際的運用中，測量系統的輸出總是存在誤差的。下面用fmin計算反卷積，這種方法只能用在很小規模的數列之上，因此沒有很大的實用價值，不過用來評價fmin函數的性能還是不錯的。示例代碼：

import scipy.optimize as opt 
import numpy as np 

def test_fmin_convolve(fminfunc, x, h, y, yn, x0): 
    """
    x (*) h = y, (*)表示卷積
    yn為在y的基礎上添加一些干擾噪聲的結果
    x0為求解x的初始值
    """
    def convolve_func(h):
        """
        計算 yn - x (*) h 的power
        fmin將通過計算使得此power最小
        """ 
        return np.sum((yn - np.convolve(x, h))**2) 

    # 調用fmin函數，以x0為初始值
    h0 = fminfunc(convolve_func, x0) 

    print fminfunc.__name__ 
    print "---------------------" 
    # 輸出 x (*) h0 和 y 之間的相對誤差
    print "error of y:", np.sum((np.convolve(x, h0)-y)**2)/np.sum(y**2) 
    # 輸出 h0 和 h 之間的相對誤差
    print "error of h:", np.sum((h0-h)**2)/np.sum(h**2) 
    print 

def test_n(m, n, nscale): 
    """
    隨機產生x, h, y, yn, x0等數列，調用各種fmin函數求解b
    m為x的長度, n為h的長度, nscale為干擾的強度
    """
    x = np.random.rand(m) 
    h = np.random.rand(n) 
    y = np.convolve(x, h) 
    yn = y + np.random.rand(len(y)) * nscale
    x0 = np.random.rand(n) 

    test_fmin_convolve(opt.fmin, x, h, y, yn, x0) 
    test_fmin_convolve(opt.fmin_powell, x, h, y, yn, x0) 
    test_fmin_convolve(opt.fmin_cg, x, h, y, yn, x0)
    test_fmin_convolve(opt.fmin_bfgs, x, h, y, yn, x0)

test_n(200, 20, 0.1)

代碼

運行結果為：

fmin
---------------------
error of y: 0.000360456186137
error of h: 0.0122264525455
Optimization terminated successfully.
         Current function value: 0.207509
         Iterations: 96
         Function evaluations: 17400
fmin_powell
---------------------
error of y: 0.000129249083036
error of h: 0.000300953639205
Optimization terminated successfully.
         Current function value: 0.207291
         Iterations: 20
         Function evaluations: 880
         Gradient evaluations: 40
fmin_cg
---------------------
error of y: 0.000129697740414
error of h: 0.000292820536053
Optimization terminated successfully.
         Current function value: 0.207291
         Iterations: 31
         Function evaluations: 946
         Gradient evaluations: 43
fmin_bfgs
---------------------
error of y: 0.000129697643272
error of h: 0.000292817401206

結果

（4）函數求解fsolve()

optimize庫中的fsolve函數可以用來對非線性方程組進行求解，其基本調用形式是

fsolve(func, x0)

func是用於定義需求解的非線性方程組的函數文件名
x0為未知數矢量的初始值。

首先通過一個簡單的示例，利用fsolve()函數求解當線性函數為0時，x的值，示例代碼：

import matplotlib.pyplot as plt
from scipy.optimize import fsolve import numpy as np line = lambda x:x+3 solution = fsolve(line, -2) print(solution)

結果為：

[-3，]

通過以下繪圖函數可以看出當函數等於0時，x軸的坐標值為-3，示例代碼：

x = np.linspace(-5.0, 0, 100) plt.plot(x,line(x), color="green",label = "function") plt.plot(solution,line(solution), "o", label = "root") plt.legend(loc = "best") plt.show()

結果為：

下面我們通過一個簡單的示例介紹一下兩個方程交點的求解方法，示例代碼：

from scipy.optimize import fsolve import numpy as np import matplotlib.pyplot as plt # 定義解函數
def findIntersection(func1, func2, x0): return fsolve(lambda x: func1(x)-func2(x),x0) # 定義兩方程
funky = lambda x : np.cos(x / 5) * np.sin(x / 2) line = lambda x : 0.01 * x - 0.5

# 定義兩方程交點的取值范圍
x = np.linspace(0, 45, 1000) result = findIntersection(funky, line, [15, 20, 30, 35, 40, 45]) # 輸出結果
print(result, line(result)) plt.plot(x,funky(x), color="green",label = "funky func") plt.plot(x,line(x), color="yellow",label = "line func") plt.plot(result,line(result), "o", label = "intersection") plt.legend(loc = "best") plt.show()

結果為：

如果要對如下方程組進行求解的話：

f1(u1,u2,u3) = 0
f2(u1,u2,u3) = 0
f3(u1,u2,u3) = 0

那么func可以如下定義：

def func(x): u1,u2,u3 = x return [f1(u1,u2,u3), f2(u1,u2,u3), f3(u1,u2,u3)]

下面是一個實際的例子，求解如下方程組的解：

5*x1 + 3 = 0
4*x0*x0 - 2*sin(x1*x2) = 0
x1*x2 - 1.5 = 0

示例代碼：

from scipy.optimize import fsolve from math import sin,cos def f(x): x0 = float(x[0]) x1 = float(x[1]) x2 = float(x[2]) return [ 5*x1+3, 4*x0*x0 - 2*sin(x1*x2), x1*x2 - 1.5 ] result = fsolve(f, [1,1,1]) print (result)

結果為：

[-0.70622057 -0.6        -2.5       ]

2.3 插值interpolate模塊

插值是離散函數逼近的重要方法，利用它可通過函數在有限個點處的取值狀況，估算出函數在其他點處的近似值。與擬合不同的是，要求曲線通過所有的已知數據。SciPy的interpolate模塊提供了許多對數據進行插值運算的函數，范圍涵蓋簡單的一維插值到復雜多維插值求解。當樣本數據變化歸因於一個獨立的變量時，就使用一維插值；反之樣本數據歸因於多個獨立變量時，使用多維插值。
計算插值有兩種基本的方法，1、對一個完整的數據集去擬合一個函數；2、對數據集的不同部分擬合出不同的函數，而函數之間的曲線平滑對接。第二種方法又叫做仿樣內插法，當數據擬合函數形式非常復雜時，這是一種非常強大的工具。我們首先介紹怎樣對簡單函數進行一維插值運算，然后進一步深入比較復雜的多維插值運算。

（1）一維插值

一維數據的插值運算可以通過函數interp1d()完成。其調用形式如下，它實際上不是函數而是一個類：

interp1d(x, y, kind='linear', ...)

其中，x和y參數是一系列已知的數據點，kind參數是插值類型，可以是字符串或整數，它給出插值的B樣條曲線的階數，候選值及作用下表所示：

候選值	作用
‘zero’ 、'nearest'	階梯插值，相當於0階B樣條曲線
‘slinear’ 、'linear'	線性插值，用一條直線連接所有的取樣點，相當於一階B樣條曲線
‘quadratic’ 、'cubic'	二階和三階B樣條曲線，更高階的曲線可以直接使用整數值指定

下面的程序演示了通過不同的 kind參數（linear和quadratic），對一個正弦函數進行插值運算。示例代碼：

import numpy as np from scipy.interpolate import interp1d import matplotlib.pyplot as plt #創建待插值的數據
x = np.linspace(0, 10*np.pi, 20) y = np.cos(x) # 分別用linear和quadratic插值
fl = interp1d(x, y, kind='linear') fq = interp1d(x, y, kind='quadratic') #設置x的最大值和最小值以防止插值數據越界
xint = np.linspace(x.min(), x.max(), 1000) yintl = fl(xint) yintq = fq(xint) plt.plot(xint,fl(xint), color="green", label = "Linear") plt.plot(xint,fq(xint), color="yellow", label ="Quadratic") plt.legend(loc = "best") plt.show()

結果如下圖所示：

（2）噪聲數據插值

我們可以通過interpolate模塊中UnivariateSpline()函數對含有噪聲的數據進行插值運算，示例代碼：

import numpy as np from scipy.interpolate import UnivariateSpline import matplotlib.pyplot as plt # 通過人工方式添加噪聲數據
sample = 30 x = np.linspace(1, 10*np.pi, sample) y = np.cos(x) + np.log10(x) + np.random.randn(sample)/10

# 插值，參數s為smoothing factor 
f = UnivariateSpline(x, y, s=1) xint = np.linspace(x.min(), x.max(), 1000) yint = f(xint) plt.plot(xint,f(xint), color="green", label = "Interpolation") plt.plot(x, y, color="yellow", label ="Original") plt.legend(loc = "best") plt.show()

需要說明的是：在UnivariateSpline()函數中，參數s是平滑向量參數，被用來擬合還有噪聲的數據。如果參數s=0，將忽略噪聲對所有點進行插值運算。結果如下圖所示：

（3）多維插值

多維插值主要用於重構圖片，interpolate模塊中的griddata()函數有很強大的處理多維散列取樣點進行插值運算的能力。其調用形式如下：

griddata(points, values, xi, method='linear', fill_value=nan)

其中points表示K維空間中的坐標，它可以是形狀為(N,k)的數組，也可以是一個有k個數組的序列，N為數據的點數。values是points中每個點對應的值。xi是需要進行插值運算的坐標，其形狀為(M,k)。method參數有三個選項：'nearest'、 ‘linear’、 'cubic'，分別對應0階、1階以及3階插值。以下示例利用1000個隨機散列點對1000x1000像素的圖片進行重構，示例代碼：

import numpy as np from scipy.interpolate import griddata#定義一個函數
def ripple(x,y): return np.sqrt(x**2 + y**2) + np.sin(x**2 + y**2) # 生成grid數據，復數定義了生成grid數據的step，若無該復數則step為5 
grid_x, grid_y = np.mgrid[0:5:1000j, 0:5:1000j] # 生成待插值的樣本數據 
points = np.random.rand(1000,2) value = ripple(points[:,0]*5,points[:,1]*5) # 用nearest方法插值
grid_z0 = griddata(points*5,value, (grid_x,grid_y),method='nearest')

我們還可以使用interpolate模塊的SmoothBivariateSpline類進行多元仿樣插值運算，對圖片進行重構。示例代碼：

import numpy as np from scipy.interpolate import SmoothBivariateSpline as SBS #定義一個函數
def ripple(x,y): return np.sqrt(x**2 + y**2) + np.sin(x**2 + y**2) # 生成grid數據，復數定義了生成grid數據的step，若無該復數則step為5 
grid_x, grid_y = np.mgrid[0:5:1000j, 0:5:1000j] # 生成待插值的樣本數據 
points = np.random.rand(1000,2) value = ripple(points[:,0]*5,points[:,1]*5) # 用nearest方法插值
fit = SBS(points[:,0]*5, points[:,1]*5, value, s=0.01, kx=4, ky=4) interp = fit(np.linspace(0, 5, 1000), np.linspace(0, 5, 1000))

我們得到了一個與上個示例同樣的結果。整體上SmoothBivariateSpline函數的表現略好於griddata函數。
通過反復測試，盡管SmoothBivariateSpline表現略好，但其對給定的樣本數據非常敏感，就可能導致忽略一些顯著特征。而griddata函數有很強的魯棒性，不管給定的數據樣本，能夠合理的進行插值運算。

2.4 統計stats模塊
NumPy庫已經提供了一些基本的統計函數，如求期望、方差、中位數、最大值和最小值等。示例代碼：

import numpy as np #構建一個1000個隨機變量的數組
x = np.random.randn(1000) #對數組元素的值進行統計
mean = x.mean() std = x.std() var = x.var() print(mean,std,var)

結果為：

(0.02877273942510088, 0.97623362287515114, 0.95303208643194282)

mean是期望值，std是標准差，var是方差，使用numpy.array對象已有的方法獲得統計指標快速有效，而SciPy庫則提供了更高級的統計工具，它的Stats模塊包含了多種概率分布的隨機變量（隨機變量是指概率論中的概念，不是Python中的變量），其中隨機變量又分為連續和離散兩種。所有的連續隨機變量都是rv_continuous的派生類的對象，而所有的離散隨機變量都是rv_discrete的派生類的對象。

（1）連續概率分布
SciPy的stats模塊提供了大約80種連續隨機變量和10多種離散分布變量，這些分布都依賴於numpy.random函數。可以通過如下語句獲得stats模塊中所有的連續隨機變量，示例代碼：

from scipy import stats [k for k, v in stats.__dict__.items() if isinstance(v, stats.rv_continuous)]

運行結果為：

['ksone', 'kstwobign', 'norm', 'alpha', 'anglit', 'arcsine', 'beta', 'betaprime', 'bradford', 'burr', 'burr12', 'fisk', 'cauchy', 'chi', 'chi2', 'cosine', 'dgamma', 'dweibull', 'expon', 'exponnorm', 'exponweib', 'exponpow', 'fatiguelife', 'foldcauchy', 'f', 'foldnorm', 'frechet_r', 'weibull_min', 'frechet_l', 'weibull_max', 'genlogistic', 'genpareto', 'genexpon', 'genextreme', 'gamma', 'erlang', 'gengamma', 'genhalflogistic', 'gompertz', 'gumbel_r', 'gumbel_l', 'halfcauchy', 'halflogistic', 'halfnorm', 'hypsecant', 'gausshyper', 'invgamma', 'invgauss', 'invweibull', 'johnsonsb', 'johnsonsu', 'laplace', 'levy', 'levy_l', 'levy_stable', 'logistic', 'loggamma', 'loglaplace', 'lognorm', 'gilbrat', 'maxwell', 'mielke', 'kappa4', 'kappa3', 'nakagami', 'ncx2', 'ncf', 't', 'nct', 'pareto', 'lomax', 'pearson3', 'powerlaw', 'powerlognorm', 'powernorm', 'rdist', 'rayleigh', 'reciprocal', 'rice', 'recipinvgauss', 'semicircular', 'skewnorm', 'trapz', 'triang', 'truncexpon', 'truncnorm', 'tukeylambda', 'uniform', 'vonmises', 'vonmises_line', 'wald', 'wrapcauchy', 'gennorm', 'halfgennorm']

連續隨機變量對象主要使用如下方法，下表所示：

方法名	全稱	功能
rvs	Random Variates of given type	對隨機變量進行隨機取值，通過size參數指定輸出數組的大小
pdf	Probability Density Function	隨機變量的概率密度函數
cdf	Cumulative Distribution Function	隨機變量的累積分布函數，它是概率密度函數的積分
sf	Survival function	隨機變量的生存函數，它的值是1-cdf(t)
ppf	Percent point function	累積分布函數的反函數
stats	statistics	計算隨機變量的期望值和方差
fit	fit	對一組隨機取樣進行擬合，找出最適合取樣數據的概率密度函數的系數

下面以標准正態分布（函數表示f(x)=(1/√2π)exp(-x^2/2)）為例，簡單介紹隨機變量的用法。示例代碼：

from scipy import stats # 設置正態分布參數，其中loc是期望值參數，scale是標准差參數
X = stats.norm(loc=1.0, scale=2.0) # 計算隨機變量的期望值和方差
print(X.stats())

結果為：

(array(1.0), array(4.0))

以上代碼說明，norm可以像函數一樣調用，通過loc和scale參數可以指定隨機變量的偏移和縮放參數。對於正態分布的隨機變量來說，這兩個參數相當於指定其期望值和標准差，標准差是方差的算術平方根。X的stats()方法，可以計算隨機變量X分布的特征值，如期望值和方差。
此外，通過調用隨機變量X的rvs()方法，可以得到包含一萬次隨機取樣值的數組x，然后調用NumPy的mean()和var()計算此數組的均值和方差，其結果符合隨機變量X的特性，示例代碼：

#對隨機變量取10000個值
x = X.rvs(size=10000) print(np.mean(x), np.var(x))

結果為：

(1.0287787687588861, 3.9944276709242805)

使用fit()方法對隨機取樣序列x進行擬合，它返回的是與隨機取樣值最吻合的隨機變量參數，示例代碼：

#輸出隨機序列的期望值和標准差
print(stats.norm.fit(x))

結果為：

(1.0287787687588861, 1.998606432223283)

在下面的例子中，計算取樣值x的直方圖統計以及累計分布，並與隨機變量的概率密度函數和累積分布函數進行比較。示例代碼：

pdf, t = np.histogram(x, bins=100, normed=True) t = (t[:-1]+t[1:])*0.5 cdf = np.cumsum(pdf) * (t[1] - t[0]) p_error = pdf - X.pdf(t) c_error = cdf - X.cdf(t) print("max pdf error: {}, max cdf error: {}".format(np.abs(p_error).max(), np.abs(c_error).max()))

運行結果如下所示：

max pdf error: 0.0208405611169, max cdf error: 0.0126874590568

通過繪圖的方式查看概率密度函數求得的理論值（theory value）和直方圖統計值（statistic value），可以看出二者是一致的，示例代碼：

import pylab as pl pl.plot(t, pdf, color="green", label = "statistic value") pl.plot(t, X.pdf(t), color="yellow", label ="theory value") pl.legend(loc = "best") pl.show()

結果見下圖所示：

也可以用同樣的方式顯示隨機變量X的累積分布和數組pdf的累加結果，示例代碼：

import pylab as pl pl.plot(t, cdf, color="green", label = "statistic value") pl.plot(t, X.cdf(t), color="yellow", label ="theory value") pl.legend(loc = "best") pl.show()

結果為：

（2）離散概率分布

# 數組x保存骰子的所有可能值，數組p保存每個值出現的概率
x = range(1, 7) p = (0.4, 0.2, 0.1, 0.1, 0.1, 0.1) # 創建表示這個骰子的隨機變量dice，調用其rvs()方法投擲此骰子20次，獲得符合概率p的隨機數
dice = stats.rv_discrete(values=(x, p)) print(dice.rvs(size=20))

運行結果：

array([3, 6, 4, 5, 5, 2, 1, 3, 3, 1, 1, 3, 1, 5, 1, 3, 4, 1, 2, 2])

除了自定義離散概率分布，我們也可以利用stats模塊里的函數定義各種分布。下面以生成幾何分布為例，其函數是geom()，示例代碼：

import numpy as np from scipy.stats import geom # 設置幾何分布的參數
p = 0.5 dist = geom(p) # 設置樣本區間 
x = np.linspace(0, 5, 1000) # 得到幾何分布的 PMF 和CDF 
pmf = dist.pmf(x) cdf = dist.cdf(x) # 生成500個隨機數 
sample = dist.rvs(500)

（3）描述與檢驗函數

SciPy中有超過60種統計函數。stats模塊包括了諸如kstest 和normaltest等樣本測試函數，用來檢測樣本是否服從某種分布。在使用這些工具前，要對數據有較好的理解，否則可能會誤讀它們的結果。樣本分布檢驗為例，示例代碼：

import numpy as np from scipy import stats # 生成包括100個服從正態分布的隨機數樣本
sample = np.random.randn(100) # 用normaltest檢驗原假設
out = stats.normaltest(sample) print('normaltest output') print('Z-score = ' + str(out[0])) print('P-value = ' + str(out[1])) # kstest 是檢驗擬合度的Kolmogorov-Smirnov檢驗，這里針對正態分布進行檢驗 # D是KS統計量的值，越接近0越好
out = stats.kstest(sample, 'norm') print('\nkstest output for the Normal distribution') print('D = ' + str(out[0])) print('P-value = ' + str(out[1])) # 類似地可以針對其他分布進行檢驗，例如Wald分布
out = stats.kstest(sample, 'wald') print('\nkstest output for the Wald distribution') print('D = ' + str(out[0])) print('P-value = ' + str(out[1]))

SciPy的stats模塊中還提供了一些描述函數，如幾何平均（gmean）、偏度（skew）、樣本頻數（itemfreq）等。示例代碼

import numpy as np from scipy import stats # 生成包括100個服從正態分布的隨機數樣本
sample = np.random.randn(100) # 調和平均數，樣本值須大於0 
out = stats.hmean(sample[sample > 0]) print('Harmonic mean = ' + str(out)) # 計算-1到1之間樣本的均值
out = stats.tmean(sample, limits=(-1, 1)) print('\nTrimmed mean = ' + str(out)) # 計算樣本偏度
out = stats.skew(sample) print('\nSkewness = ' + str(out)) # 函數describe可以一次給出樣本的多種描述統計結果
out = stats.describe(sample) print('\nSize = ' + str(out[0])) print('Min = ' + str(out[1][0])) print('Max = ' + str(out[1][1])) print('Mean = ' + str(out[2])) print('Variance = ' + str(out[3])) print('Skewness = ' + str(out[4])) print('Kurtosis = ' + str(out[5]))

參考：簡書

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python SciPy Sparse模塊學習筆記 python scipy優化器模塊（optimize） python Scipy.optimize 模塊中優化求解器總結 Windows下python安裝Matplotlib、Numpy和Scipy模塊 windows下python安裝Numpy、Scipy、matplotlib模塊 scipy模塊stats文檔 SciPy模塊應用 Python安裝scipy python scipy庫 python安裝scipy