MATLAB數據歸一化【zz】

本文轉載自查看原文 2012-09-27 09:19 5904

原文地址：http://www.matlabsky.com/thread-9268-1-1.html

==================================================
幾個要說明的函數接口:

[Y,PS] = mapminmax(X)
[Y,PS] = mapminmax(X,FP)
Y = mapminmax('apply',X,PS)
X = mapminmax('reverse',Y,PS)

用實例來講解,測試數據

x1 = [1 2 4], x2 = [5 2 3];
>> [y,ps] = mapminmax(x1)

y =

   -1.0000   -0.3333    1.0000

ps =

      name: 'mapminmax'

     xrows: 1

      xmax: 4

      xmin: 1

    xrange: 3

     yrows: 1

      ymax: 1

      ymin: -1

    yrange: 2

其中y是對進行某種規范化后得到的數據,這種規范化的映射記錄在結構體ps中.讓我們來看一下這個規范化的映射到底是怎樣的?

Algorithm
It is assumed that X has only finite real values, and that the elements of each row are not all equal.

    * y = (ymax-ymin)*(x-xmin)/(xmax-xmin) + ymin;

* [關於此算法的一個問題.算法的假設是每一行的元素都不想相同,那如果都相同怎么辦?實現的辦法是,如果有一行的元素都相同比如xt = [1 1 1],此時xmax = xmin = 1,把此時的變換變為y = ymin,matlab內部就是這么解決的.否則該除以0了,沒有意義!]

也就是說對x1 = [1 2 4]采用這個映射 f: 2*(x-xmin)/(xmax-xmin)+(-1),就可以得到y = [ -1.0000 -0.3333 1.0000]
我們來看一下是不是: 對於x1而言 xmin = 1,xmax = 4;
則y(1) = 2*(1 - 1)/(4-1)+(-1) = -1;
y(2) = 2*(2 - 1)/(4-1)+(-1) = -1/3 = -0.3333;
y(3) = 2*(4-1)/(4-1)+(-1) = 1;
看來的確就是這個映射來實現的.
對於上面algorithm中的映射函數其中ymin,和ymax是參數,可以自己設定,默認為-1,1;

比如:

>>[y,ps] = mapminmax(x1)
>> ps.ymin = 0;

>> [y,ps] = mapminmax(x1,ps)

y =

         0    0.3333    1.0000

ps =

      name: 'mapminmax'

     xrows: 1

      xmax: 4

      xmin: 1

    xrange: 3

     yrows: 1

      ymax: 1

      ymin: 0

    yrange: 1

則此時的映射函數為: f: 1*(x-xmin)/(xmax-xmin)+(0),是否是這樣的這回你可自己驗證.O(∩_∩)O

如果我對x1 = [1 2 4]采用了某種規范化的方式, 現在我要對x2 = [5 2 3]采用同樣的規范化方式[同樣的映射],如下可辦到:

>> [y1,ps] = mapminmax(x1);
>> y2 = mapminmax('apply',x2,ps)

y2 =

    1.6667   -0.3333    0.3333

即對x1采用的規范化映射為: f: 2*(x-1)/(4-1)+(-1),(記錄在ps中),對x2也要采取這個映射.

x2 = [5,2,3],用這個映射我們來算一下.

y2(1) = 2(5-1)/(4-1)+(-1) = 5/3 = 1+2/3 = 1.66667
y2(2) = 2(2-1)/(4-1)+(-1) = -1/3 = -0.3333
y2(3) = 2(3-1)/(4-1)+(-1) = 1/3 = 0.3333

X = mapminmax('reverse',Y,PS)的作用就是進行反歸一化,講歸一化的數據反歸一化再得到原來的數據:

>> [y1,ps] = mapminmax(x1);
>> xtt = mapminmax('reverse',y1,ps)

xtt =

     1     2     4

此時又得到了原來的x1(xtt = x1);

=================================
Matlab 數字歸一化問題(by yingzhilian)
http://www.ilovematlab.cn/viewth ... %3D1&sid=Xs3tJM
-------------------------------------------------------
歸一化化定義：我是這樣認為的，歸一化化就是要把你需要處理的數據經過處理后（通過某種算法）限制在你需要的一定范圍內。首先歸一化是為了后面數據處理的方便，其次是保正程序運行時收斂加快。
在matlab里面，用於歸一化的方法共有三種:
（1）premnmx、postmnmx、tramnmx
（2）prestd、poststd、trastd
（3）是用matlab語言自己編程。

premnmx指的是歸一到[－1 1],prestd歸一到單位方差和零均值。（3）關於自己編程一般是歸一到[0.1 0.9] 。具體用法見下面實例。
為什么要用歸一化呢？首先先說一個概念，叫做奇異樣本數據，所謂奇異樣本數據數據指的是相對於其他輸入樣本特別大或特別小的樣本矢量。
下面舉例：

m=[0.11 0.15 0.32 0.45 30;
      0.13 0.24 0.27 0.25 45];

其中的第五列數據相對於其他4列數據就可以成為奇異樣本數據（下面所說的網絡均值bp）。奇異樣本數據存在所引起的網絡訓練時間增加，並可能引起網絡無法收斂，所以對於訓練樣本存在奇異樣本數據的數據集在訓練之前，最好先進形歸一化，若不存在奇異樣本數據，則不需要事先歸一化。

具體舉例：

close all
clear

echo on

clc

%BP建模

%原始數據歸一化

m_data=[1047.92 1047.83 0.39 0.39 1.0 3500 5075;

    1047.83 1047.68 0.39 0.40  1.0 3452 4912;

    1047.68 1047.52  0.40  0.41 1.0  3404 4749;

    1047.52  1047.27  0.41  0.42 1.0  3356 4586;

    1047.27  1047.41 0.42 0.43  1.0  3308  4423;

    1046.73  1046.74 1.70 1.80 0.75  2733  2465;

    1046.74  1046.82  1.80  1.78 0.75  2419 2185;

    1046.82 1046.73  1.78  1.75  0.75 2105  1905;

    1046.73  1046.48 1.75 1.85 0.70 1791  1625;

    1046.48  1046.03  1.85  1.82  0.70 1477 1345;

    1046.03 1045.33 1.82 1.68  0.70  1163  1065;

    1045.33  1044.95  1.68  1.71 0.70  849  785;

    1044.95  1045.21 1.71  1.72  0.70  533  508;

    1045.21 1045.64  1.72  1.70 0.70 567  526;

    1045.64 1045.44 1.70  1.69  0.70  601  544;

    1045.44 1045.78  1.69  1.69 0.70  635  562;

    1045.78 1046.20  1.69  1.52 0.75  667  580];

%定義網絡輸入p和期望輸出t

pause

clc

p1=m_data(:,1:5);

t1=m_data(:,6:7);

p=p1';t=t1';

[pn,minp,maxp,tn,mint,maxt]=premnmx(p,t)

%設置網絡隱單元的神經元數(5~30驗證后5個最好）

n=5;

%建立相應的BP網絡

pause

clc

net=newff(minmax(pn),[n,2],{'tansig','purelin'},'traingdm');

inputWeights=net.IW{1,1};

inputbias=net.b{1};

layerWeights=net.IW{1,1};

layerbias=net.b{2};

pause

clc

% 訓練網絡

net.trainParam.show=50;

net.trainParam.lr=0.05;

net.trainParam.mc=0.9;

net.trainParam.epochs=200000;

net.trainParam.goal=1e-3;

pause

clc

%調用TRAINGDM算法訓練BP網絡

net=train(net,pn,tn);

%對BP網絡進行仿真

A=sim(net,pn);

E=A-tn;

M=sse(E)

N=mse(E)

pause

clc

p2=[1046.20 1046.05 1.52 1.538 0.75;

    1046.05 1046.85 1.538 1.510 0.75;

    1046.85 1046.60 1.510 1.408 0.75;

    1046.60 1046.77 1.408 1.403 0.75;

    1046.77 1047.18 1.403 1.319 0.75];

p2=p2';

p2n=tramnmx(p2,minp,maxp);

a2n=sim(net,p2n);

a2=postmnmx(a2n,mint,maxt)

echo off

pause

clc

程序說明：所用樣本數據（見m_data）包括輸入和輸出數據，都先進行歸一化，還有一個問題就是你要進行預測的樣本數據(見本例p2)在進行仿真前，必須要用tramnmx函數進行事先歸一化處理，然后才能用於預測，最后的仿真結果要用postmnmx進行反歸一，這時的輸出數據才是您所需要的預測結果。

個人認為：tansig、purelin、logsig是網絡結構的傳遞函數，本身和歸一化沒什么直接關系，歸一化只是一種數據預處理方法。

==================================================================================

需要說明的事並不是任何問題都必須事先把原始數據進行規范化,也就是數據規范化這一步並不是必須要做的,要具體問題具體看待,測試表明有時候規范化后的預測准確率比沒有規范化的預測准確率低很多.就最大最小值法而言,當你用這種方式將原始數據規范化后,事實上意味着你承認了一個假設就是測試數據集的每一模式的所有特征分量的最大值(最小值)不會大於(小於)訓練數據集的每一模式的所有特征分量的最大值(最小值),但這條假設顯然過於強,實際情況並不一定會這樣.使用平均數方差法也會有同樣類似的問題.故數據規范化這一步並不是必須要做的,要具體問題具體看待. [faruto 按]
實現上面的規范化代碼:
代碼:

function normal = normalization(x,kind)
% by Li Yang BNU MATH Email:farutoliyang@gmail.com QQ:516667408

% last modified 2009.2.24

%

if nargin < 2

    kind = 2;%kind = 1 or 2 表示第一類或第二類規范化

end

[m,n]  = size(x);

normal = zeros(m,n);

%% normalize the data x to [0,1]

if kind == 1  

    for i = 1:m

        ma = max( x(i,:) );

        mi = min( x(i,:) );

        normal(i,:) = ( x(i,:)-mi )./( ma-mi );

    end

end

%% normalize the data x to [-1,1]

if kind == 2

    for i = 1:m

        mea = mean( x(i,:) );

        va = var( x(i,:) );

        normal(i,:) = ( x(i,:)-mea )/va;

    end

end

==========================================================================

由於采集的各數據單位不一致，因而須對數據進行[-1，1]歸一化處理，歸一化方法主要有如下幾種，供大家參考：（by james）
1、線性函數轉換，表達式如下：
y=(x-MinValue)/(MaxValue-MinValue)
說明：x、y分別為轉換前、后的值，MaxValue、MinValue分別為樣本的最大值和最小值。
2、對數函數轉換，表達式如下：
y=log10(x)
說明：以10為底的對數函數轉換。
3、反余切函數轉換，表達式如下：
y=atan(x)*2/PI
歸一化是為了加快訓練網絡的收斂性，可以不進行歸一化處理

歸一化的具體作用是歸納統一樣本的統計分布性。歸一化在0-1之間是統計的概率分布，歸一化在-1--+1之間是統計的坐標分布。歸一化有同一、統一和合一的意思。無論是為了建模還是為了計算，首先基本度量單位要同一，神經網絡是以樣本在事件中的統計分別幾率來進行訓練（概率計算）和預測的，歸一化是同一在0-1之間的統計概率分布；

當所有樣本的輸入信號都為正值時，與第一隱含層神經元相連的權值只能同時增加或減小，從而導致學習速度很慢。為了避免出現這種情況，加快網絡學習速度，可以對輸入信號進行歸一化，使得所有樣本的輸入信號其均值接近於0或與其均方差相比很小。

歸一化是因為sigmoid函數的取值是0到1之間的，網絡最后一個節點的輸出也是如此，所以經常要對樣本的輸出歸一化處理。所以這樣做分類的問題時用[0.9 0.1 0.1]就要比用[1 0 0]要好。

但是歸一化處理並不總是合適的，根據輸出值的分布情況，標准化等其它統計變換方法有時可能更好。
關於用premnmx語句進行歸一化：
premnmx語句的語法格式是：[Pn,minp,maxp,Tn,mint,maxt]=premnmx(P,T)
其中P，T分別為原始輸入和輸出數據，minp和maxp分別為P中的最小值和最大值。mint和maxt分別為T的最小值和最大值。
premnmx函數用於將網絡的輸入數據或輸出數據進行歸一化，歸一化后的數據將分布在[-1,1]區間內。
我們在訓練網絡時如果所用的是經過歸一化的樣本數據，那么以后使用網絡時所用的新數據也應該和樣本數據接受相同的預處理，這就要用到tramnmx。
下面介紹tramnmx函數：
[Pn]=tramnmx(P,minp,maxp)
其中P和Pn分別為變換前、后的輸入數據，maxp和minp分別為premnmx函數找到的最大值和最小值。
（by terry2008）

matlab中的歸一化處理有三種方法
1. mapminmax (premnmx、postmnmx、tramnmx)
2. mapstd （restd、poststd、trastd）
3. 自己編程
具體用那種方法就和你的具體問題有關了
（by happy）

pm=max(abs(p(i,:))); p(i,:)=p(i,:)/pm;
和
for i=1:27
p(i,:)=(p(i,:)-min(p(i,:)))/(max(p(i,:))-min(p(i,:)));
end 可以歸一到0 1 之間
0.1+(x-min)/(max-min)*(0.9-0.1)其中max和min分別表示樣本最大值和最小值。
這個可以歸一到0.1-0.9

=================================by ratbaby
補充一個吧，歸一還可以用 mapminmax。
這個函數可以把矩陣的每一行歸一到[-1 1].
[y1,PS] = mapminmax(x1). 其中x1 是需要歸一的矩陣 y1是結果
當需要對另外一組數據做歸一時，比如SVM 中的 training data用以上方法歸一，而test data就可以用下面的方法做相同的歸一了
y2 = mapminmax('apply',x2,PS)
當需要把歸一的數據還原時，可以用以下命令
x1_again = mapminmax('reverse',y1,PS)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MATLAB數據預處理-歸一化-mapminmax matlab將矩陣數據歸一化到[0,255] matlab 工具函數 —— normalize（歸一化數據） matlab對數據標准化歸一化的處理 matlab 歸一化和反歸一化 matlab 神經網絡數據預處理歸一化 MATLAB（5）——生成歸一化直方圖數據歸一化數據歸一化數據歸一化