樣本點多余30個時,用擬合而不用插值算法。
定義:
與插值問題不同,在擬合問題中不需要曲線一定經過給定的點。擬合問題的目標是尋求一個函數(曲線),使得該曲線在某種准則下與所有的數據點最為接近,即曲線擬合的最好(最小化損失函數)。
什么時候用插值,什么時候用擬合?
當樣本點n大於30時,成為大樣本數據,此時用擬合。大樣本的情況下可以用中心極限定理和大數定律,數據的正態性就能得到滿足,還能得到它的置信區間。
所以樣本點比較多的時候,優先選擇擬合。
擬合算法步驟:
先畫出樣本數據散點圖,直到大概趨勢,然后選擇不同的擬合函數進行擬合,最后評價這些擬合函數的好壞,選擇出最好的擬合函數。
分析:
怎么求得使損失最小的k和b呢?
在求極值求偏導,再求二階導數大於0還是小於0判斷是極大值還是極小值,因此用(yi-yi^)^2來表示誤差比較容易求導。
擬合值與真實值的差的平方和最小就是最小二乘法的思想。
這里是用線性函數作為擬合函數,求偏導求k和b比較容易,但是若是復雜的函數如指數函數作為擬合函數,用求偏導方法求擬合函數的參數就會很復雜,可能就要用到極大似然估計來求。(matlib中有對應的函數,直接調用即可)
當擬合函數很復雜(指數函數、三角函數)時,求偏導方法失效,就要用到優化算法(智能算法),求最小二乘法,找到最小的點。
如何評價擬合的好壞:
擬合優度(可決系數)R^2,但只適用於線性函數(線性函數是只擁有一個變量的一節多項式函數)。
SSE誤差平方和,適合所有擬合函數好壞評價。