Octave入門

本文轉載自查看原文 2016-07-02 11:38 50306 機器學習

Octave/Matlab Tutorial

Basic Operations

你現在已經掌握不少機器學習知識了在這段視頻中我將教你一種編程語言 Octave語言 你能夠用它來非常迅速地實現這門課中我們已經學過或者將要學的機器學習算法

過去我一直嘗試用不同的編程語言來教授機器學習包括C++、Java、 Python、Numpy 和 Octave 我發現當使用像 Octave這樣的高級語言時學生能夠更快更好地學習並掌握這些算法

事實上在硅谷我經常看到的情況是進行大規模的機器學習項目的人通常會使用的程序語言就是Octave， Octave是一種很好的原始語言(prototyping language) 使用Octave 你能快速地實現你的算法 剩下的事情你只需要進行大規模的資源配置你只用再花時間用C++或Java這些語言把算法重新實現就行了因為我們知道開發項目的時間或者說你的時間是很寶貴的機器學習的時間也是很寶貴的所以如果你能讓你的學習算法在Octave上快速的實現基本的想法實現以后再用C++或者Java去改寫這樣你就能節省出大量的時間

據我所見人們使用最多的用於機器學習的原始語言是Octave、MATLAB Python、NumPy 和 R Octave很好因為它是開源的當然 MATLAB也很好但它不是每個人都買得起的但是如果你能夠使用MATLAB 你也可以在這門課里面使用如果你會Python、NumPy 或者R語言我也見過有人用 R 的但是據我所知這些人不得不中途放棄了因為這些語言在開發上比較慢而且因為這些語言 Python、NumPy的語法相較於Octave來說還是更麻煩一點正因為這樣也因為我們最開始用Octave來寫程序所以我強烈建議你不要用NumPy或者R來完整這門課的作業我建議你在這門課中用Octave來寫程序接下來本視頻將快速地介紹一系列的命令目標是迅速地展示通過這一系列Octave的命令讓你知道Octave能用來做什么我們的網站會提供所有我在視頻中提到的內容的文本所以當你看完這個視頻想查詢一些命令時你可以查看這些資料這些都放在網上了

總之我建議你先看教學視頻之后把Octave安裝到電腦上最后去這門課的網站上下載這門課的相關文檔和視頻然后你可以試着在Octave中鍵入一些有趣的命令讓程序運行在你的電腦上這樣你可以看到程序是怎么運行的

讓我們開始吧這里是我的Windows桌面啟動Octave 現在打開Octave 這是Octave命令行現在讓我示范最基本的Octave代碼

輸入5 + 6 然后得到11 ；輸入3 - 2； 5×8；1/2；2 ^ 6 得到64；這些都是基本的數學運算

>> 5+6
ans =  11
>> 3-2
ans =  1
>> 5*8
ans =  40
>> 1/2
ans =  0.50000
>> 2^6
ans =  64

你也可以做邏輯運算例如 1==2 計算結果為 false ( 假 ) 這里的百分號命令表示注釋， 1==2 計算結果為假這里用0表示；

1 ~= 2 這是真的因此返回1 請注意不等於符號的寫法是這個波浪線加上等於符號 ( ~= ) 而不是等於感嘆號加等號 ( != ) 這是和其他一些編程語言中不太一樣的地方

讓我們看看邏輯運算 1 && 0 使用雙＆符號表示邏輯與 1 && 0判斷為假 1和0的或運算 1 || 0 其計算結果為真

還有異或運算如XOR ( 1, 0 ) 其返回值為1

>> 1 == 2  %false
ans = 0
>> 1 ~= 2  %true
ans =  1
>> 8>1 && 0  %AND
ans = 0
>> 9>1 || 1  %OR
ans =  1
>> xor(1,0)
ans =  1

從左向右寫着 Octave 324.x版本其計算結果等於11 這是默認的Octave提示它顯示了當前Octave的版本以及相關的其它信息如果你不想看到那個提示這里有一個隱藏的命令輸入命令 PS('>> '); 現在你看到的就是等待命令的快捷提示這句話在中間有一個字符串 ('>> '); 這是我喜歡的命令行樣子這里敲一個回車抱歉寫錯了這樣才對要寫成PS1這樣現在命令提示已經變得簡化了這樣看起來很棒

>> PS1('>>>');
>>>

接下來我們將談到Octave的變量 現在寫一個變量對變量A賦值為3 並按下回車鍵顯示變量A等於3 如果你想分配一個變量但不希望在屏幕上顯示結果 你可以在命令后加一個分號可以抑制打印輸出敲入回車后不打印任何東西。 A等於3 只是不顯示出來其中這句命令不打印任何東西現在舉一個字符串的例子變量b等於"hi" 現在如果我輸入b 則會顯示字符串變量b的值"hi" C等於3大於等於1 所以現在C變量的值是真如果你想打印出變量或顯示一個變量你可以像下面這么做設置A等於圓周率π 如果我要打印該值那么只需鍵入A 像這樣就打印出來了

>>>a = 3
a =  3
>>>a = 3;  #分號抑制打印
>>>

對於更復雜的屏幕輸出也可以用DISP命令顯示 Disp( A )就相當於像這樣打印出A 你也可以用該命令來顯示字符串輸入disp sprintf 小數 0.2% 逗號 A 像這樣通過這條命令將打印出字符串打印顯示為“兩位小數：3.14” 這是一種舊風格的C語言語法如果就學過C語言的同學來說你可以使用這種基本的語法來將結果打印到屏幕 Sprintf命令生成一個字符串不僅僅是字符串“2 decimal：3.14” 其中的“0.2％F”表示代替A放在這里並顯示A值的小數點后兩位數字同時DISP 命令對字符串做出操作 DISP命令輸出 Sprintf產生的字符串 Sprintf命令和DISP命令顯示字符串再說一個細節例如 sprintf命令的六個小數 0.6％F ,A 這應該打印π 的6位小數形式最后看起來像這樣也有一些控制輸出長短格式的快捷命令默認情況下是字符串顯示出的小數位有點多短 ( short ) 格式是默認的輸出格式只是打印小數數位的第一位相關這方面的內容還需要你繼續練習

>>>a = 3.14;
>>>a
a =  3.1400
>>>disp(a);
 3.1400
>>>disp(sprintf('2 decimals: %0.2f', a));
2 decimals: 3.14

>>>a=pi
a =  3.1416
>>>format long
>>>a
a =  3.14159265358979
>>>format short
>>>a
a =  3.1416

下面讓我們來看看向量和矩陣比方說建立一個矩陣A 輸入1 2 ; 3 4 ; 5 6 這會產生一個三行兩列的矩陣A 其第一行是1 2 第二行是3 4 第三行是5 6 分號的作用從本質上來說就是在矩陣內換行到下一行此外還有其他的方法來建立矩陣A 輸入A矩陣的值 1 2 分號 3 4 分號 5 6 這是另一種方法對A矩陣進行賦值考慮到這是一個三行兩列的矩陣

>>>A = [1 2; 3 4; 5 6]
A =

   1   2
   3   4
   5   6

>>>a = [1 2;
3 4;
5 6]
a =

   1   2
   3   4
   5   6

你同樣可以用向量建立向量V並賦值1 2 3 V是一個行向量或者說是一個3 ( 列 )×1 ( 行 ) 的向量一個胖胖的Y向量或者說一行三列的矩陣注意不是三行一列如果我想分配一個列向量我可以寫“1;2;3” 現在便有了一個 3 行 1 列的向量同時這是一個列向量下面是一些更為有用的符號 V等於1：0.1：2 這個該如何理解呢這個集合V是一組值從數值1開始增量或說是步長為0.1 直到增加到2 按照這樣的方法對向量V操作可以得到一個行向量這是一個1行11列的矩陣其矩陣的元素是1 1.1 1.2 1.3 依此類推直到數值2

>>>v = [1 2 3]
v =

   1   2   3

>>>v = [1; 2; 3]
v =

   1
   2
   3

>>>v = 1:0.1:2
v =

 Columns 1 through 4:

    1.0000    1.1000    1.2000    1.3000

 Columns 5 through 8:

    1.4000    1.5000    1.6000    1.7000

 Columns 9 through 11:

    1.8000    1.9000    2.0000

>>>v = 1:6
v =

   1   2   3   4   5   6

現在我也可以建立一個集合V並用命令“1:6”進行賦值這樣V就被賦值了 1至6的六個整數這里還有一些其他的方法來生成矩陣例如“ones(2, 3)” 也可以用來生成矩陣其結果為一個兩行三列的矩陣不過矩陣中的所有元素都為1 當我想生成一個元素都為2 兩行三列的矩陣就可以使用這個命令你可以把這個方法當成一個生成矩陣的快速方法當你想生成一個三維2×2×2的矩陣時你就可以用這個“ones”命令比方說 w是一個有三個1的行向量或者說一行由三個同樣的1組成的向量你也可以說 w為一個一行三列的零矩陣一行三列的A矩陣里的元素全部是零

>>>ones(2,3)
ans =

   1   1   1
   1   1   1

>>>w = ones(1,3)
w =

   1   1   1

還有很多的方式來生成矩陣如果我對W進行賦值用Rand命令建立一個一行三列的矩陣因為使用了Rand命令則其一行三列的元素均為隨機值如果我使用 “rand(3, 3)”命令這就生成了一個 3×3的矩陣並且其所有元素均為隨機數值介於0和1之間所以正是因為這一點我們可以得到數值均勻介於0和1之間的元素

>>>w = rand(3,3)
w =

   0.91025   0.82671   0.14067
   0.90400   0.34350   0.51289
   0.25501   0.24975   0.80750

如果你知道什么是高斯隨機變量或者你知道什么是正態分布的隨機變量你可以設置集合W 使其等於一個一行三列的N矩陣並且來自三個值一個平均值為0的高斯分布方差或者等於1的標准偏差還可以設置地更復雜

벵>>>w = randn(1,3)
w =

  -0.052546  -1.786869   0.754202

例如 W減去6 再加上10的平方兩者相乘 Rand命令生成一個1行10000列的矩陣把分號放到末尾這樣結果就打印不出來那這樣會得到什么呢這樣就可以得到一個有10000元素的向量想知道具體是多少我們也可把它打印出來這將產生一個這樣的矩陣生成了這個叫做 data 的對象是吧？這就是一個有着10000個元素的矩陣W 如果我現在用繪制直方圖命令繪制出一個直方圖使用Octave的打印直方圖命令你只需要數秒鍾就可以將它繪制出來這是一個對隨機變量W 繪制出的直方圖這里是-6+0 乘上十倍的高斯隨機變量這樣可以繪制出一個有着更多條的乃至50個條的直方圖來這樣就有一個均值減去6的高斯直方圖因為這里是 -6加10的平方根並與這項相乘因此這個高斯隨機變量的方差是10 且其標准偏差為10的平方根 3.1

w = -6 + sqrt(10)*(randn(1,10000));
hist(w)
hist(w, 50)

最后說一個生成矩陣的特殊命令I 其實 I也可說是一個雙關語字標識設置一個4階單位矩陣這是一個4×4矩陣所以I為“eye(4)” 通過上面的命令得到4×4矩陣 I可以等於5階單位陣 6階單位陣那么就有 6階單位陣 eye( 3 )是一個3階方陣

>> eye(4)
ans =

Diagonal Matrix

   1   0   0   0
   0   1   0   0
   0   0   1   0
   0   0   0   1

在本節視頻的最后還有一個比較有用的命令那就是幫助命令例如你可以鍵入help i 它就會將矩陣的相關信息顯示出來命令Q可以退出Octave 你也可以鍵入help rand 將會顯示出有關rand函數的相關幫助文檔以及相關的隨機數生成函數甚至可以使用命令help help 將會顯示出help命令的使用方法

>> help

  For help with individual commands and functions type

    help NAME

  (replace NAME with the name of the command or function you would
  like to learn more about).

  For a more detailed introduction to GNU Octave, please consult the
  manual.  To read the manual from the prompt type

    doc

  GNU Octave is supported and developed by its user community.
  For more information visit http://www.octave.org.

以上講解的內容都是Octave的基本操作希望你能通過上面的講解自己練習一些矩陣、乘、加等操作將這些操作在Octave中熟練在接下來的視頻中將會涉及更多復雜的命令並使用它們在Octave中對數據進行更多的操作

Moving Data Around移動數據

在第二段關於 Octave的輔導課視頻中我將開始介紹如何在 Octave 中移動數據 具體來說如果你有一個機器學習問題你怎樣把數據加載到 Octave 中？怎樣把數據存入一個矩陣？如何對矩陣進行相乘？如何保存計算結果？如何移動這些數據並用數據進行操作？

和之前一樣這是我的 Octave 窗口我們繼續沿用上次的窗口我鍵入 A 得到我們之前構建的矩陣 A 也就是用這個命令生成的 A = 這是一個三行二列的矩陣

Octave 中的 size() 命令返回矩陣的尺寸所以 size(A) 命令返回3 2 實際上 size() 命令返回的是一個 1×2 的矩陣我們可以用 sz 來存放設置 sz = size(A) 因此 sz 就是一個1×2的矩陣第一個元素是3 第二個元素是2 所以如果鍵入 size(sz) 看看 sz 的尺寸返回的是1 2 表示是一個1×2的矩陣 1 和 2 分別表示矩陣 A 的維度 (此處口誤應為 sz 的維度譯者注)

>> A = [1 2; 3 4; 5 6]
A =

   1   2
   3   4
   5   6

>> size(A)
ans =

   3   2

>> sz = size(A)
sz =

   3   2

>> size(sz)
ans =

   1   2

>> size(A,1)
ans =  3
>> size(A,2)
ans =  2

你也可以鍵入 size(A, 1) 這個命令會返回 A 矩陣的第一個元素 A 矩陣的第一個維度的尺寸也就是 A 矩陣的行數同樣命令 size(A, 2) 將返回2 也就是 A 矩陣的列數也就是 A 矩陣的列數如果你有一個向量 v 假如 v = 假如 v = 然后鍵入 length(v) 這個命令將返回最大維度的大小你也可以鍵入 length(A) 由於矩陣 A 是一個3×2的矩陣因此最大的維度應該是3 因此該命令會返回3 但通常我們還是對向量使用 length 命令比如 length() 比如 length() 而不是對矩陣使用 length 命令因為畢竟有點容易讓人弄混

>> V = [1 2 3 4]
V =

   1   2   3   4

>> length(V)
ans =  4
>> length(A)
ans =  3

下面讓我們來看看如何在系統中 加載數據和尋找數據 當我們打開 Octave 時我們通常已經在一個默認路徑中這個路徑是 Octave 的安裝位置 pwd 命令可以顯示出 Octave 當前所處路徑 Octave 當前所處路徑所以現在我們就在這個目錄下 cd 命令意思是改變路徑我可以把路徑改為C:\Users\ang\Desktop 這樣當前目錄就變為了桌面如果鍵入 ls ls 來自於一個 Unix 或者 Linux 命令 ls 命令將列出我桌面上的所有路徑因此這些就是我桌面上的所有文件了

>> pwd
ans = C:\Users\xin
>> cd 'E:\TEMPsrc\octave'
>> pwd
ans = E:\TEMPsrc\octave
>> ls

事實上我的桌面上有兩個文件 featuresX.dat 和 priceY.dat 是兩個我想解決的機器學習問題這是我的桌面這是 featuresX 文件 featuresX 文件如這個窗口所示是一個含有兩列數據的文件這其實就是我的房屋價格數據我想應該是數據集中有47行第一個房子樣本面積是2104平方英尺有3個卧室第二套房子面積為1600 有3個卧室等等 priceY 是這個文件也就是訓練集中的價格數據所以 featuresX 和 priceY 就是兩個存放數據的文檔那么應該怎樣把數據讀入 Octave 呢？好的我們只需要鍵鍵入 featuresX.dat 這樣我將加載了 featuresX 文件同樣地我可以加載 priceY.dat 其實有好多種辦法可以完成如果你把命令寫成字符串的形式 load('featureX.dat') 也是可以的這里打錯了這跟剛才的命令效果是相同的只不過是把文件名寫成了一個字符串的形式現在文件名被存在一個字符串中 Octave 中使用引號來表示字符串就像這樣這就是一個字符串因此我們讀取的文件文件名由這個字符串給出

load featuresX.dat
load priceY.dat
load('featuresX.dat')

另外 who 命令能顯示出在我的 Octave 工作空間中的所有變量因此 who 命令顯示出當前 Octave 儲存的變量包括 featureX 和 priceY 同樣還包括在此之前你創建的那些變量

>> who
Variables in the current scope:

a    ans  b    c

所以我可以鍵入 featuresX 回車來顯示 featuresX 這些就是存在里面的數據還可以鍵入 size(featuresX) 得出的結果是 47 2 代表這是一個47×2的矩陣類似地輸入 size(priceY) 結果是 47 1 表示這是一個47維的向量是一個列矩陣存放的是訓練集中的所有價格 Y 的值 who 函數能讓你看到當前工作空間中的所有變量

同樣還有另一個 whos 命令能更詳細地進行查看因此在 who 后面加一個 s 同樣也列出我所有的變量不僅如此還列出了變量的維度我們看到 A 是一個 3×2的矩陣 X 是一個47×2的矩陣 priceY 是一個47×1的矩陣也就是一個向量同時還顯示出需要占用多少內存空間以及數據類型是什么 double 意思是雙精度浮點型這也就是說這些數都是實數是浮點數

>> whos
Variables in the current scope:

   Attr Name        Size                     Bytes  Class

   ==== ====        ====                     =====  =====

        a           1x1                          8  doubl
e
        ans         1x17                        17  char
        b           1x1                          8  doubl
e
        c           1x1                          8  doubl
e
        d           3x2                         48  doubl
e

Total is 26 elements using 89 bytes

如果你想刪除某個變量你可以使用 clear 命令因此我們鍵入 clear featuresX 然后再輸入 whos 命令你會發現 featuresX 消失了

>> who
Variables in the current scope:

a    ans  b    c    d

>> clear a
>> who
Variables in the current scope:

ans  b    c    d

另外我們怎么儲存數據呢？我們來看我們設變量 v 為 priceY(1:10) 這表示的是將向量 Y 的前10個元素存入 v 中我們輸入 who 或者 whos Y 是一個47×1的向量因此現在 v 就是10×1的向量因為剛才設置了 v = priceY(1:10) 這便將 v 的值設為了 Y 的前十個元素假如我們想把它存入硬盤那么用 save hello.mat v 命令這個命令會將變量 v 存成一個叫 hello.mat 的文件讓我們回車現在我的桌面上就出現了一個新文件名為 hello.mat 由於我的電腦里也同時安裝了 MATLAB 所以這個圖標上面有 MATLAB 的標識因為操作系統把文件識別為 MATLAB 文件所以如果在你的電腦上圖標顯示的不一樣的話也沒有關系

>> save hello.mat d

現在我們清除所有變量直接鍵入 clear 這樣將刪除工作空間中的所有變量所以現在工作空間中啥都沒了

>> clear
>> who

但如果我載入 hello.mat 文件我又重新讀取了變量 v 因為我之前把變量 v存入了 hello.mat 文件中所以我們剛才用 save 命令做了什么這個命令把數據按照二進制形式儲存或者說是更壓縮的二進制形式因此如果 v 是很大的數據那么壓縮幅度也更大占用空間也更小如果你想把數據存成一個人能看懂的形式那么可以鍵入 save hello.txt v -ascii 這樣就會把數據存成一個文本文檔或者將數據的 ascii 碼存成文本文檔現在我鍵入了這個命令以后我的桌面上就有了 hello.txt 文件就有了 hello.txt 文件如果打開它我們可以發現這個文本文檔存放着我們的數據這就是讀取和儲存數據的方法

>> v = [1 2; 3 4; 5 6; 7 8; 9 0]
v =

   1   2
   3   4
   5   6
   7   8
   9   0

< -ascii  %save as text(ASCII)

接下來我們再來講講操作數據的方法 假如 A 還是那個矩陣跟剛才一樣還是那個 3×2 的矩陣現在我們加上索引值比如鍵入 A(3,2) 這將索引到 A 矩陣的 (3,2) 元素 A 矩陣的 (3,2) 元素這就是我們通常書寫矩陣的形式寫成 A 下標32 下標32
3和2分別表示矩陣的第三行和第二列對應的元素因此也就對應 6 我也可以鍵入 A(2,:) 來返回第二列的所有元素因此冒號表示該行或該列的所有元素因此 A(2,:) 表示 A 矩陣的第二行的所有元素類似地如果我鍵入 A(:,2) 這將返回 A 矩陣第二列的所有元素這將得到 2 4 6 這表示返回 A 矩陣的第二列的所有元素因此這就是矩陣 A 的第二列就是 2 4 6 你也可以在運算中使用這些較為復雜的索引

>> A = [1 2; 3 4; 5 6]
A =

   1   2
   3   4
   5   6

>> A(3,2)
ans =  6
>> A(2,:)
ans =

   3   4

>> A(:,2)
ans =

   2
   4
   6

我再給你展示幾個例子可能你也不會經常使用但我還是輸入給你看 A(,:) 這個命令意思是取 A 矩陣第一個索引值為1或3的元素也就是說我取的是 A 矩陣的第一行和第三行的每一列第三行的每一列這是 A 矩陣因此輸入 A(, :) 返回第一行返回第三行冒號表示的是取這兩行的每一列元素也就是第一行和第二行的所有元素(此處口誤應為第三行譯者注) 因此返回結果為 1 2 5 6

>> A([1 3], :)
ans =

   1   2
   5   6

可能這些比較復雜一點的索引操作你不會經常用到我們還能做什么呢這依然是 A 矩陣 A(:,2) 命令返回第二列你也可以為它賦值所以我可以取 A 矩陣的第二列然后將它賦值為 10 11 12 如果我這樣做的話我實際上是取出了 A 的第二列然后把一個列向量賦給了它因此現在 A 矩陣的第一列還是 1 3 5 第二列就被替換為 10 11 12 接下來一個操作讓我們把 A 設為 A = ] 這樣做的結果是在原矩陣的右邊附加了一個新的列矩陣附加了一個新的列矩陣現在見證奇跡的時刻... 噢我又犯錯了應該放分號的現在 A 矩陣就是這樣了明白嗎？我希望你聽懂了所以這是個列矩陣而我們所做的就是把 A 矩陣設置為原來的 A 矩陣再在右邊附上一個新添加的列矩陣我們的原矩陣 A 就是右邊這個6個元素就是右邊這個6個元素所以我們就是把 A 矩陣右邊加上了一個新的列向量所以現在 A 矩陣變成這樣一個 3×3 的矩陣

>> A(:,2) = [10;11;12]
A =

    1   10
    3   11
    5   12

>> A = [A, [100;101;102]]
A =

     1    10   100
     3    11   101
     5    12   102

最后還有一個小技巧我也經常使用如果你就輸入 A(:) 這是一個很特別的語法結構意思是把 A 中的所有元素放入一個單獨的列向量這樣我們就得到了一個 9×1 的向量這些元素都是 A 中的元素排列起來的

再來幾個例子好了我還是把 A 重新設為假如說我再設一個 B 為我可以新建一個矩陣 C C = 這個意思就是這是我的矩陣 A 這是我的矩陣 B 我設 C = 這樣做的結果就是把這兩個矩陣直接連在一起矩陣 A 在左邊矩陣 B 在右邊這樣組成了 C 矩陣就是直接把 A 和 B 合起來我還可以設 C = 這里的分號表示把分號后面的東西放到下面所以的作用依然還是把兩個矩陣放在一起只不過現在是上下排列所以現在 A 在上面 B 在下面 C 就是一個 6×2 矩陣簡單地說分號的意思就是換到下一行所以 C 就包括上面的 A 然后換行到下面然后在下面放上一個 B 另外順便說一下這個命令跟是一樣的這兩種寫法的結果是相同的

>> A = [1 2; 3 4; 5 6];
>> B = [11 12; 13 14; 15 16];
>> C = [A B]
C =

    1    2   11   12
    3    4   13   14
    5    6   15   16

>> C = [A; B]
C =

    1    2
    3    4
    5    6
   11   12
   13   14
   15   16

好了通過以上這些操作希望你現在掌握了怎樣構建矩陣 也希望我展示的這些命令能讓你很快地學會怎樣把矩陣放到一起怎樣取出矩陣 並且把它們放到一起組成更大的矩陣通過幾句簡單的代碼 Octave 能夠很方便地很快速地幫助我們組合復雜的矩陣以及對數據進行移動這就是移動數據這一節課

在下一段視頻中我們將一起來談談怎樣利用數據進行更為復雜的計算希望這節課的內容能讓你明白在 Octave 中怎樣用幾句簡單的命令很快地對數據進行移動包括加載和儲存一個向量或矩陣加載和存儲數據把矩陣放在一起構建更大的矩陣用索引對矩陣某個特定元素進行操作等等我知道可能我一下子講了很多命令所以我認為對你來講

最好的學習方法是下課后復習一下我鍵入的這些代碼好好地看一看從課程的網上把代碼的副本下載下來重新好好看看這些副本然后自己在 Octave 中把這些命令重新輸一遍慢慢開始學會使用這些命令當然沒有必要把這些命令都記住你也不可能記得住你要做的就是從這段視頻里了解一下你可以用哪些命令做哪些事這樣在你今后需要編寫學習算法時如果你要找到某個 Octave 中的命令你可能回想起你之前在這里學到過然后你就可以查找課程中提供的程序副本這樣就能很輕松地找到你想使用的命令了好了這就是移動數據這節課的全部內容

在下一段視頻中我將開始向你介紹怎樣進行一些更復雜的計算 怎樣對數據進行計算怎樣對數據進行計算同時開始實現學習算法

Computing on Data

現在你已經學會了在Octave中如何加載或存儲數據 如何把數據存入矩陣等等在這段視頻中我將向你介紹 如何對數據進行運算 稍后我們將使用這些運算操作來實現我們的學習算法

現在我們開始吧這是我的 Octave 窗口我現在快速地初始化一些變量比如設置A 為一個3×2的矩陣設置B為一個3 × 2矩陣設置C為 2 × 2矩陣現在我想算兩個矩陣的乘積比如說 A × C 我只需鍵入A×C 這是一個 3×2 矩陣乘以 2×2 矩陣得到這樣一個3×2矩陣你也可以對每一個元素做運算方法是做點乘運算A .*B 這么做 Octave將矩陣 A 中的每一個元素與矩陣 B 中的對應元素相乘這是A 這是B 這是A .* B 比如說這里第一個元素 1乘以11得到11 第二個元素是 2乘以12得到24 這就是兩個矩陣的元素位運算通常來說在Octave中點號一般用來表示元素位運算這里是一個矩陣A 這里我輸入A .^ 2 這將對矩陣A中每一個元素平方所以 1的平方是1 2的平方是4 等等

>> A = [1 2; 3 4; 5 6];
>> B = [11 12; 13 14; 15 16];
>> C = [1 1; 2 2];
>> A*C
ans =

    5    5
   11   11
   17   17

>> A .* B
ans =

   11   24
   39   56
   75   96

>> A .^ 2
ans =

    1    4
    9   16
   25   36

我們設V是一個向量設V為是列向量你也可以輸入 1 ./ V 得到每一個元素的倒數所以這樣一來就會分別算出 1/1 1/2 1/3 矩陣也可以這樣操作 1 ./ A 得到 A中每一個元素的倒數

>> V = [1; 2; 3];
>> 1 ./ V
ans =

   1.00000
   0.50000
   0.33333

>> 1 ./ A
ans =

   1.00000   0.50000
   0.33333   0.25000
   0.20000   0.16667

同樣地這里的點號還是表示對每一個元素進行操作我們還可以進行求對數運算也就是對每個元素進行求對數運算還有自然數e的冪次運算就是以e為底以這些元素為冪的運算所以這是e 這是e的平方這是e的立方 v 矩陣是這樣的我還可以用 abs 來對 v 的每一個元素求絕對值當然這里 v 都是正數我們換成另一個這樣對每個元素求絕對值得到的結果就是這些非負的元素還有 -v 給出V中每個元素的相反數這等價於 -1 乘以 v 不過一般就直接用 -v 就好了其實就等於 -1*v 還有什么呢？

>> log(V)
ans =

   0.00000
   0.69315
   1.09861

>> exp(V)
ans =

    2.7183
    7.3891
   20.0855

>> abs(V)
ans =

   1
   2
   3

還有一個技巧比如說我們想對v中的每個元素都加1 那么我們可以這么做首先構造一個 3行1列的1向量然后把這個1向量跟原來的向量相加因此 v 向量從增至我用了一個 length(v) 命令因此這樣一來 ones(length(v) ,1) 就相當於 ones(3,1) 所以這是ones(3,1) 對吧然后我做的是 v + ones(3,1) 也就是將 v 的各元素都加上這些1 這樣就將 v 的每個元素增加了1 另一種更簡單的方法是直接用 v+1 所以這是 v v + 1 也就等於把 v 中的每一個元素都加上1

>> v = [1;2;3]
v =

   1
   2
   3

>> v + ones(length(v), 1)
ans =

   2
   3
   4

>> v + ones(3,1)
ans =

   2
   3
   4

>> v + 1
ans =

   2
   3
   4

現在讓我們來談談更多的操作這是我的矩陣A 如果你想要求它的轉置那么方法是用A‘ 這是單引號符號並且是左引號可能你的鍵盤上有一個左引號和一個右引號這里用的是左引號也就是標准的引號因此 A’ 將得出 A 的轉置矩陣當然如果我寫 (A‘)’ 也就是 A 轉置兩次那么我又重新得到矩陣 A

還有一些有用的函數假如說小寫a 是這是一個1行4列矩陣假如說 val=max(a) 這將返回 A矩陣中的最大值在這里是15 我還可以寫 = max(a) 這將返回 a矩陣中的最大值存入val 以及該值對應的索引因此元素15對應的索引值為2 存入ind 所以 ind 等於2

>> a = [1 15 2 0.5]
a =

    1.00000   15.00000    2.00000    0.50000

>> val = max(a)
val =  15
>> [val, ind] = max(a)
val =  15
ind =  2

特別注意一下如果你用命令 max(A) A是一個矩陣的話這樣做就是對每一列求最大值等下再仔細講講

我們還是用這個例子這個小a 矩陣如果輸入 a<3 這將進行逐元素的運算 所以第一個元素是小於3的因此返回1 a的第二個元素不小於3 所以這個值是0 表示"非" 第三個和第四個數字仍然是小於3 2和0.5都小於3 因此這返回也就是說對a矩陣的每一個元素與3進行比較然后根據每一個元素與3的大小關系返回1和0表示真與假

現在如果我寫 find(a<3) 這將告訴我 a 中的哪些元素是小於3的是小於3的在這里就是第一第三和第四個元素是小於3的

a =

    1.00000   15.00000    2.00000    0.50000

>> a < 3
ans =

   1   0   1   1

>> find(a < 3)
ans =

   1   3   4

下一個例子設A = magic(3) magic 函數返回什么呢讓我們查看 magic 函數的幫助文件
magic 函數將返回一個矩陣稱為魔方陣或幻方 (magic squares) 它們具有以下這樣的數學性質它們所有的行和列和對角線加起來都等於相同的值當然據我所知這在機器學習里基本用不上但我可以用這個方法很方便地生成一個 3行3列的矩陣而這個魔方矩陣這神奇的方形屏幕。每一行每一列每一個對角線三個數字加起來都是等於同一個數我只有在演示功能或者上課教 Octave 的時候會用到這個矩陣在其他有用的機器學習應用中這個矩陣其實沒多大作用讓我來看看別的如果我輸入 = find( A>=7 ) 這將找出所有A矩陣中大於等於7的元素因此 r 和 c 分別表示行和列這就表示第一行第一列的元素大於等於7 第三行第二列的元素大於等於7 第二行第三列的元素大於等於7 我們來看看第二行第三列的元素就是 A(2,3) 是等於7的就是這個元素確實是大於等於7的順便說一句其實我從來都不去刻意記住這個 find 函數到底是怎么用的我只需要會用 help 函數就可以了每當我在使用這個函數忘記怎么用的時候我就可以用 help 函數鍵入 help find 來找到幫助文檔

>> A = magic(3)
A =

   8   1   6
   3   5   7
   4   9   2

>> [r, c] = find(A >= 7)
r =

   1
   3
   2

c =

   1
   2
   3

好吧最后再講兩個內容一個是求和函數這是 a 矩陣鍵入 sum(a) 就把 a 中所有元素加起來了如果我想把它們都乘起來鍵入 prod(a) prod 意思是 product(乘積) 它將返回這四個元素的乘積 floor(a) 是向下四舍五入因此對於 a 中的元素 0.5將被下舍入變成0 還有 ceil(A) 表示向上四舍五入所以0.5將上舍入變為最接近的整數也就是1

>> a
a =

    1.00000   15.00000    2.00000    0.50000

>> sum(a)
ans =  18.500
>> prod(a)
ans =  15
>> floor(a)
ans =

    1   15    2    0

>> ceil(a)
ans =

    1   15    2    1

還有我們來看鍵入 type(3) 這通常得到一個3×3的矩陣如果鍵入 max(rand(3), rand(3)) 這樣做的結果是返回兩個3×3的隨機矩陣並且逐元素比較取最大值所以你會發現所有這些數字幾乎都比較大因為這里的每個元素都實際上是兩個隨機生成的矩陣逐元素進行比較取最大的那個值這是剛才生成的 3×3魔方陣 A 假如我輸入 max(A,[],1) 這樣做會得到每一列的最大值所以第一例的最大值就是8 第二列是9 第三列的最大值是7 這里的1表示取A矩陣第一個維度的最大值相對地如果我鍵入 max(A,[],2) 這將得到每一行的最大值所以第一行的最大值是等於8 第二行最大值是7 第三行是9 所以你可以用這個方法來求得每一行或每一列的最值

>> max(rand(3), rand(3))
ans =

   0.957477   0.083887   0.459507
   0.799441   0.975439   0.927632
   0.888604   0.942436   0.612661

>> A
A =

   8   1   6
   3   5   7
   4   9   2

>> max(A, [], 1)
ans =

   8   9   7

另外你要知道默認情況下 max(A)返回的是每一列的最大值如果你想要找出整個矩陣A的最大值你可以輸入 max(max(A)) 像這樣或者你可以將 A 矩陣轉成一個向量然后鍵入 max(A(:)) 這樣做就是把 A 當做一個向量並返回 A 向量中的最大值

>> max(max(A))
ans =  9
>> max(A(:))
ans =  9

最后讓我們把 A 設為一個 9行9列的魔方陣別忘了魔方陣具有的特性是每行每列和對角線的求和都是相等的這是一個9×9的魔方陣我們來求一個 sum(A,1) 這樣就得到每一列的總和所以這樣做就是把 A 的每一列進行求和從這里我們也可以看出這也驗證了一個9×9的魔方陣確實每一列加起來都相等都為369 現在我們來求每一行的和鍵入sum(A,2) 這樣就得到了 A 中每一行的和 A 中每一行的和加起來還是369

>> A = magic(5)
A =

   17   24    1    8   15
   23    5    7   14   16
    4    6   13   20   22
   10   12   19   21    3
   11   18   25    2    9

>> sum(A,1)
ans =

   65   65   65   65   65

>> sum(A,2)
ans =

   65
   65
   65
   65
   65

現在我們來算 A 的對角線元素的和看看它們的和是不是也相等我們現在構造一個 9×9 的單位矩陣鍵入 eye(9) 設為I9 然后我們要用 A 逐點乘以這個單位矩陣這是矩陣A 我現在用 A 逐點乘以 eye(9) 這樣做的結果是兩個矩陣對應元素將進行相乘除了對角線元素外其他元素都會得到0 然后我對剛才求到的結果鍵入sum(sum(A.*eye(9)) 這實際上是求得了這個矩陣對角線元素的和確實是369

>> sum(sum(A.*eye(5)))
ans =  65

你也可以求另一條對角線的和這個是從左上角到右下角的你也可以求另一條對角線從左下角到右上角這個和這個命令會有點麻煩其實你不需要知道這個我只是想給你看如果你感興趣的話可以聽聽讓我們來看看 flipup/flipud 表示向上/向下翻轉如果你用這個命令的話計算的就是副對角線上所有元素的和還是會得到369 我來給你演示一下 eye(9) 矩陣是這樣那么 flipup(eye(9)) 將得到一個單位矩陣並且將它翻轉不好意思打錯了應該是flipud 翻轉以后所有的1就變成副對角線了

>> eye(9)
ans =

Diagonal Matrix

   1   0   0   0   0   0   0   0   0
   0   1   0   0   0   0   0   0   0
   0   0   1   0   0   0   0   0   0
   0   0   0   1   0   0   0   0   0
   0   0   0   0   1   0   0   0   0
   0   0   0   0   0   1   0   0   0
   0   0   0   0   0   0   1   0   0
   0   0   0   0   0   0   0   1   0
   0   0   0   0   0   0   0   0   1

>> flipud(eye(9))
ans =

Permutation Matrix

   0   0   0   0   0   0   0   0   1
   0   0   0   0   0   0   0   1   0
   0   0   0   0   0   0   1   0   0
   0   0   0   0   0   1   0   0   0
   0   0   0   0   1   0   0   0   0
   0   0   0   1   0   0   0   0   0
   0   0   1   0   0   0   0   0   0
   0   1   0   0   0   0   0   0   0
   1   0   0   0   0   0   0   0   0

最后再說一個命令然后就下課假如 A 是一個 3×3的魔方陣同樣地如果你想這個矩陣的逆矩陣鍵入 pinv(A) 通常稱為偽逆矩陣但這個名字不重要你就把它看成是矩陣 A 求逆因此這就是 A 矩陣的逆矩陣設 temp = pinv(A) 然后再用temp 乘以 A 這實際上得到的就是單位矩陣對角線為1 其他元素為0 稍微圓整一下就是好了這樣我們就介紹了如何對矩陣中的數字進行各種操作

>> A = magic(3)
A =

   8   1   6
   3   5   7
   4   9   2

>> pinv(A)
ans =

   0.147222  -0.144444   0.063889
  -0.061111   0.022222   0.105556
  -0.019444   0.188889  -0.102778

>> temp = pinv(A)
temp =

   0.147222  -0.144444   0.063889
  -0.061111   0.022222   0.105556
  -0.019444   0.188889  -0.102778

>> temp * A
ans =

   1.00000   0.00000  -0.00000
  -0.00000   1.00000   0.00000
   0.00000   0.00000   1.00000

在運行完某個學習算法之后通常一件最有用的事情是看看你的結果或者說讓你的結果可視化在接下來的視頻中我會非常迅速地告訴你如何很快地畫出如何只用一兩行代碼你就可以快速地可視化你的數據畫出你的數據這樣你就能更好地理解你使用的學習算法

Plotting Data

當開發學習算法時往往幾個簡單的圖可以讓你更好地理解算法的內容並且可以完整地檢查下算法是否正常運行是否達到了算法的目的例如在之前的視頻中我談到了繪制成本函數J(θ) 可以幫助確認梯度下降算法是否收斂 通常情況下繪制數據或學習算法所有輸出也會啟發你如何改進你的學習算法幸運的是 Octave有非常簡單的工具用來生成大量不同的圖當我用學習算法時我發現繪制數據繪制學習算法等往往是我獲得想法來改進算法的重要部分在這段視頻中我想告訴你一些 Octave的工具來繪制和可視化你的數據

這是我的 Octave 窗口我們先來快速生成一些數據用來繪圖我先設置t 等於這個數列這是t 是從0到0.98的集合讓我們設置y1等於sin 2*pi*4*t （此處pi表示π）如果我想繪制正弦函數這是很容易的我只需要輸入plot(t, y1) 並回車就出現了這個圖橫軸是 t變量縱軸是y1 也就是我們剛剛所輸出的正弦函數

>> t=[0:0.01:0.98];
>> y1 = sin(2*pi*4*t);
>> plot(t,y1);

讓我們設置y2 等於cos 2*pi*4*t 而如果我輸入plot t逗號y2 Octave將會消除之前的正弦圖並且用這個余弦圖來代替它這里縱軸cos(x)從1開始

>> t=[0:0.01:0.98];
>> y2 = cos(2*pi*4*t);
>> plot(t,y2);

如果我要同時表示正弦和余弦曲線我要做的就是輸入plot(t, y1) 這是我的正弦函數我使用函數hold on hold on函數的功能是將新的圖像繪制在舊的之上我現在繪制t y2 我要以不同的顏色繪制余弦函數所以我在這里輸入帶引號的r 我將繪制余弦函數在這之上而不是替換了現有的圖 r表示所使用的顏色再加上命令xlabel('time') 來標記X軸即水平軸輸入ylabel('value') 來標記垂直軸的值同時我也可以
來標記我的兩條函數曲線用這個命令 legend('sin', 'cos') 將這個圖例放在右上方表示這兩條曲線表示的內容最后輸入title('myplot') 在圖像的頂部顯示這幅圖的標題如果你想保存這幅圖像，你輸入print -dpng 'myplot.png' png是一個圖像文件格式如果你這樣做了它可以讓你保存為一個文件如果我這樣做讓我先改一下路徑像這樣然后我將它打出來這需要一點時間而這取決於你的 Octave的配置設置可能需要幾秒鍾但改變路徑到我的桌面現在Octave需要幾秒鍾的時間來保存它如果我現在去到我的桌面先最小化這些窗口這就是 Octave所保存的myplot.png 這就是保存為PNG的文件

>> plot(t, y1);
>> hold on;
>> plot(t, y2, 'r');
>> xlabel('time')
>> ylabel('value')
>> legend('sin', 'cos')
>> title('my plot')
>> print -dpng 'myplot.png'

Octave也可以保存為很多其他的格式你可以鍵入help plot 如果你想試試其他格式的文件而不是 PNG 你可以把圖片保存為其他格式最后如果你想刪掉這個圖像命令close會讓這個圖像關掉如果我鍵入 close 這個圖像就從我的桌面消失了

>> close

Octave也可以讓你為圖像標號你鍵入figure(1); plot(t, y1); 將顯示第一張圖繪制了變量t y1 如果你想繪制第二個圖你可以指定一個不同的數字編號鍵入figure(2); plot(t, y2); 正如這樣現在我的桌面上其實有2個圖圖1和圖2 此時一個繪制正弦函數另一個繪制了余弦函數

>> figure(1); plot(t, y1);
>> figure(2); plot(t, y2);

這是另一個我經常使用的命令 subplot命令我們要使用subplot(1,2,1) 它將圖像分為一個 1*2的格子也就是前兩個參數然后它使用第一個格子也就是最后一個參數1的意思所以，將我的圖像分成 1*2的格子我現在使用第一個格子如果我鍵入這個那么這個圖像顯示在左邊如果鍵入plot(t, y1) 現在這個圖顯示在第一個格子如果我鍵入subplot(1,2,2) 那么我就要使用第二個格子鍵入plot(t, y2); 現在y2顯示在右邊也就是第二個格子最后一個命令你可以改變軸的刻度比如改成也就是設置了右邊圖的x軸和y軸的范圍具體而言它將右圖中的橫軸的范圍調整至0.5到1 豎軸的范圍為 -1到1 而且你不需要記住所有這些命令如果你需要改變坐標軸或者需要知道axis命令你可以用Octave中 help命令了解細節

>> subplot(1,2,1);
>> plot(t, y1);
>> subplot(1,2,2);
>> plot(t, y2);
>> axis([0.5 1 -1 1])

最后還有幾個命令 clf清除一幅圖像 這里有一個獨特的特點讓我們設置A等於一個5×5 magic方陣現在A是這個5*5 的矩陣我有時用一個巧妙的方法來可視化矩陣也就是imagesc(A) 它將會繪制一個5*5的矩陣一個5*5的彩色格圖不同的顏色對應 A矩陣中的不同值具體地說我還可以使用函數colorbar 讓我用一個更復雜的命令 imagesc(A) colorbar colormap gray 這實際上是在同一時間運行三個命令運行imagesc然后運行 colorbar 然后運行colormap gray 它生成了一個顏色圖像一個灰度分布圖並在右邊也加入一個顏色條所以這個顏色條顯示不同深淺的顏色所對應的值

>> clf;
>> A = magic(5);
>> imagesc(A)
>> imagesc(A), colorbar, colormap gray;

具體地左上 A矩陣的元素是17 所以對應的是這樣中等的灰度而與此相反的第二個元素也就是 A(1,2)元素代表的值為24 它對應於這里的這個方塊是接近白色的灰度較小的值比如 A多少呢 A(4,5) 為3對應着你可以看到在我的顏色條它對應於一個更暗的灰度這里是另一個例子我可以繪制一個較大的比如magic（15）給你一個15* 15 magic方陣這將會是一幅 15*15的magic方陣值的圖

最后總結一下這段視頻你看到我所做的是使用逗號連接函數調用這里是你如何真正做到這一點如果我鍵入a=1 b=2 c=3 然后按Enter鍵其實這是將這三個命令同時執行或者是將三個命令一個接一個執行它將輸出所有這三個結果這很像 a=1; b=2; c=3; 如果我用分號來代替逗號沒有輸出出任何東西所以你知道這里我們稱之為逗號連接的命令或函數調用只是另一種 Octave中更便捷的方式將多條命令例如imagesc colorbar colormap 將這多條命令寫在同一行中就是這樣現在你知道如何繪制 Octave中不同的圖像

在下面的視頻中下一個主要內容我將告訴你怎樣在Octave中寫控制語句比如if while for語句並且定義和使用函數

Control Statements: for, while, if statement

在這段視頻中告訴你怎樣為你的 Octave 程序寫控制語句 諸如 "for" "while" "if" 這些語句並且如何定義和使用方程

這是我們的 Octave 窗口我先告訴你如何使用 “for” 循環首先我要將 v 值設為一個10行1列的零向量現在我要寫一個 “for" 循環讓 i 等於 1 到 10 寫出來就是 i = 1:10 讓我們來看看我要設 v(i) 的值等於 2 的 i 次方循環最后結束 (end) 這里的空格沒關系所以我就加一些空格讓縮進后的代碼看起來結構更清晰但是你要知道這里的空格沒有意義如果按我這樣做那么向量 v 的值就是這樣一個集合 2的一次方 2的二次方依此類推於是這就是我的 i 等於 1 到 10 的語句結構讓 i 遍歷 1 到 10 的值

>> v=zeros(10,1);
>> for i=1:10,
     v(i) = 2^i;
   end;
>> v
v =

      2
      4
      8
     16
     32
     64
    128
    256
    512
   1024

另外你還可以通過設置你的 indices (索引) 等於 1 一直到10 來做到這一點這時 indices 就是一個從1到10的序列你也可以寫 i = indices 這實際上和我直接把 i 寫到 1 到 10 是一樣你可以寫 disp(i) 也能得到一樣的結果

>> for i=indices,
     disp(i);
   end;
 1
 2
 3
 4
 5
 6
 7
 8
 9
 10

所以這就是一個 “for” 循環如果你對 “break” 和 “continue” 語句比較熟悉 Octave里也有 “break” 和 “continue” 語句你也可以在 Octave環境里使用那些循環語句

但是首先讓我告訴你一個 while 循環是如何工作的這是我的 v 向量讓我們寫個 while 循環 i = 1 ; while i <= 5 ; 讓我們設置 v(i) 等於 100 然后 i 加 1 結束 (end) 所以這是什么意思呢我讓 i 取值從 1 開始然后我要讓 v(i) 等於 100 再讓 i 遞增 1 直到 i 大於 5停止

>> i = 1;
>> while i <= 5,
     v(i) = 100;
     i = i+1;
   end;
>> v
v =

    100
    100
    100
    100
    100
     64
    128
    256
    512
   1024

現在來看一下結果原來的向量 v 是2的這些次方我現在已經取出了向量的前五個元素把他們用100覆蓋掉這就是一個while循環的句法結構

現在我們來分析另外一個例子 i = 1; while true, 這里我將向你展示如何使用break語句比方說 v(i) = 999 然后讓 i = i+1 當 i 等於6的時候 break (停止循環) 結束 (end) 當然這也是我們第一次使用一個 if 語句所以我希望你們可以理解這個邏輯讓 i 等於1 然后開始下面的增量循環 while語句重復設置 v(i) 等於1 (此處口誤應為999 譯者注) 不斷讓i增加然后當 i 達到6 做一個中止循環的命令盡管有while循環語句也就此中止所以最后的效果是取出向量 v 的前5個元素並且把它們設置為999 然后運行的確如此我們用999覆蓋了 v 的前五個元素所以這就是 if 語句和 while 語句的句法結構並且要注意要有end 這里是有兩個 end 的這里的 end 結束的是 if 語句第二個 end 結束的是 while 語句

>> i=1;
>> while true,
     v(i) = 999;
     i = i+1;
     if i == 6,
       break;
     end;
    end;
>> v
v =

    999
    999
    999
    999
    999
     64
    128
    256
    512
   1024

現在讓我告訴你使用 if-else 語句時更一般的句法結構舉個例子 v(1) 等於999 假設我們令 v(1) 等於2 所以讓我輸入 if v(1) == 1, disp('The value is one'); 這里出現了一個else語句或者更確切地說這里是一個 elseif語句 elseif v(1) == 2, 這就是說如果這種情況下命題為真執行 disp('The value is two'); 否則(else) 執行 disp('The value is not one or two'); 好了這就是一個if-else語句 if-else語句記得最后有end 當然了我們剛剛設置過 v(1)等於2 所以顯然顯示的是 "The value is two"

>> v(1)
ans =  999
>> v(1) = 2;
>> if v(1)==1,
     disp('The value is one');
   elseif v(1) == 2,
     disp('The value is two');
   else
     disp('The value is not one or two');
   end;

最后我覺得現在提醒一件事如果你需要退出 Octave 你可以鍵入 exit 命令然后回車就會退出 Octave 或者命令 ‘quit’ 也可以

最后讓我們來說說 函數 (functions) 如何定義和調用函數這是我的桌面我在桌面上存了一個預先定義的文件名為 “squarethisnumber.m” 這就是在 Octave 環境下定義的函數你需要創建一個文件用你的函數名來命名然后以 .m 的后綴結尾當 Octave 發現這文件它知道應該在什么位置尋找 squareThisNumber.m 這個函數的定義讓我們打開這個文件請注意我使用的是微軟的寫字板程序來打開這個文件我只是想建議你如果你也使用微軟的 Windows 系統那么可以使用寫字板程序而不是記事本來打開這些文件如果你有別的什么文本編輯器那也可以但記事本有時會把代碼的間距弄得很亂如果你只有記事本程序那也能用但最好是如果你有寫字板的話我建議你用寫字板或者其他可以編輯函數的文本編輯器現在我們來說如何在 Octave 里定義函數我們先來放大一點這個文件只有三行第一行寫着 function y = squareThisNumber(x) 這就告訴 Octave 我想返回一個 y 值我想返回一個值並且返回的這個值將被存放於變量 y 里另外它告訴了 Octave 這個函數有一個參數就是參數 x 還有定義的函數體也就是 y 等於 x 的平方

function y = squareThisNumber(x)
y = x^2;

現在讓我們嘗試調用這個函數 SquareThisNumber(5) 這實際上是行不通的 Octave 說這個方程未被定義這是因為 Octave 不知道在哪里找這個文件所以像之前一樣我們使用 pwd 現在不在我的目錄下因此我們把路徑設為 "C:\User\ang\desktop" 這就是我的桌面的路徑噢打錯了應該是 "Users" 現在如果我鍵入SquareThisNumber(5) 返回值是25

cd 'C:\Users\ang\desktop'
pwd

還有一種更高級的功能這只是對那些知道 “search path (搜索路徑)” 這個術語的人使用的所以如果你想要修改 Octave 的搜索路徑你可以把下面這部分作為一個進階知識或者選學材料僅適用於那些熟悉編程語言中搜索路徑概念的同學你可以使用 addpath 命令添加路徑添加路徑 “C:\Users\ang\desktop” 將該目錄添加到 Octave 的搜索路徑這樣即使你跑到其他路徑底下 Octave依然知道會在 Users\ang\desktop 目錄下尋找函數這樣即使我現在在不同的目錄下它仍然知道在哪里可以找到 “SquareThisNumber” 這個函數明白嗎？

addpath('C:\Users\ang\desktop')

但是如果你不熟悉搜索路徑的概念不用擔心只要確保在執行函數之前先用 cd 命令設置到你函數所在的目錄下實際上也是一樣的效果

Octave 還有一個 其他許多編程語言都沒有的概念 那就是它可以允許你定義一個函數使得返回值是多個值或多個參數這是一個例子定義一個函數叫 “SquareAndCubeThisNumber(x)” (x的平方以及x的立方) 這說的就是函數返回值是兩個 y1 和 y2 接下來就是 y1是被平方后的數 y2是被立方后的結果這就是說函數會真的返回2個值

function [y1, y2] = squareAndCubeThisNumber(x)
y1 = x^2;
y2 = x^3;

所以有些同學可能會根據你使用的編程語言比如你們可能熟悉的C或C++ 通常情況下認為作為函數返回值只能是一個值但 Octave 的語法結構就不一樣可以返回多個值現在回到 Octave 窗口如果我鍵入 = SquareAndCubeThisNumber(5) 然后 a 就等於25 b 就等於 5的立方 125 所以說如果你需要定義一個函數並且返回多個值這一點常常會帶來很多方便

最后我來給大家演示一下一個更復雜一點的函數的例子比方說我有一個數據集像這樣數據點為, , 我想做的事是定義一個 Octave 函數來計算代價函數 J(θ) 就是計算不同 θ 值所對應的代價函數值 J 首先讓我們把數據放到 Octave 里我把我的矩陣設置為 X = ; 這就是我的設計矩陣 X 第一列表示x0項矩陣的第一列第二列表示我的三個訓練樣本的 x 值現在我再來設置 y 值為就像這樣是y軸對應值現在我們設定 theta 為

>> x = [1 1; 1 2; 1 3];
>> y = [1; 2; 3];
>> theta = [0;1];

現在我的桌面上已經有我預定義的代價函數 J 如果我打開函數函數的定義應該是下面這樣的所以函數J 就寫成 J = costFunctionJ(X, y, theta) 這里有一些注釋主要用於解釋輸入變量接下來幾步設定 m 為訓練樣本的數量也就是 X 的行數計算預測值 predictions 預測值等於 X 乘以 theta 這里是注釋行是上一個注釋行拐過來的部分下面就是計算平方誤差公式就是預測值減去 y 值然后取出來每一項進行平方最后就可以計算代價函數 J 並且 Octave 知道 J 是一個我想返回的值因為 J 出現在了我函數的定義里

function J = costFunctionJ(X,y,theta)
m = size(X,1);
predictions = X*theta;
sqrErrors = (predictions-y).^2;
J = 1/(2*m) * sum(sqrErrors);

另外你可以隨時暫停一下視頻如果你想仔細看一下這個函數的定義確保你明白了定義中的每一步現在當我在 Octave 里運行時我鍵入 j = costFunctionJ(x, y, theta) 然后他就開始計算噢又打錯了這里應該是大寫 X 它就計算出 j 等於0 這是因為如果我的數據集 x 為 y 也為然后設置 θ0 等於0 θ1 等於1 這給了我恰好45度的斜線這條線是可以完美擬合我的數據集的

>> j = costFunctionJ(X,y,theta)

而相反地如果我設置 theta 等於那么這個假設就是 0是所有的預測值和剛才一樣設置θ0 = 0 θ1 也等於0 然后我計算的代價函數結果是2.333 實際上他就等於1的平方也就是第一個樣本的平方誤差加上2的平方加上3的平方然后除以2m 也就是訓練樣本數的兩倍這就是2.33 因此這也反過來驗證了我們這里的函數計算出了正確的代價函數這些就是我們用簡單的訓練樣本嘗試的幾次試驗這也可以作為我們對定義的代價函數 J 進行了完整性檢查確實是可以計算出正確的代價函數的至少基於這里的 X 和 y 是成立的也就是我們這幾個簡單的訓練集至少是成立的

好啦現在你知道如何在 Octave 環境下寫出正確的控制語句 比如 for 循環、while 循環和 if 語句以及如何定義和使用函數

在接下來的視頻中我會非常快的介紹一下如何在這門課里完成和提交作業如何使用我們的提交系統在此之后在最后的 Octave 教程視頻里我會講解一下向量化 這是一種可以使你的 Octave 程序運行非常快的思想

Vectorization向量化

在這段視頻中我將介紹有關向量化的內容無論你是用Octave 還是別的語言比如MATLAB 或者你正在用Python NumPy 或 Java C C++ 所有這些語言都具有各種線性代數庫 這些庫文件都是內置的 容易閱讀和獲取他們通常寫得很好已經經過高度優化通常是數值計算方面的博士或者專業人士開發的而當你實現機器學習算法時如果你能好好利用這些 線性代數庫或者說 數值線性代數庫 並聯合調用它們而不是自己去做那些函數庫可以做的事情如果是這樣的話那么通常你會發現首先這樣更有效也就是說運行速度更快並且更好地利用你的計算機里可能有的一些並行硬件系統等等第二這也意味着你可以用更少的代碼來實現你需要的功能因此實現的方式更簡單代碼出現問題的有可能性也就越小

舉個具體的例子與其自己寫代碼做矩陣乘法如果你只在Octave中輸入 a乘以b 就是一個非常有效的兩個矩陣相乘的程序有很多例子可以說明如果你用合適的向量化方法來實現你就會有一個簡單得多也有效得多的代碼

讓我們來看一些例子這是一個常見的線性回歸假設函數 如果你想要計算 h(x) 注意到右邊是求和那么你可以自己計算 j =0 到 j = n 的和但換另一種方式來想想是把 h(x) 看作 θ 轉置乘以 x 那么你就可以寫成 兩個向量的內積 其中 θ 就是 θ0 θ1 θ2 如果你有兩個特征量如果 n 等於2 並且如果你把 x 看作 x0 x1 x2 這兩種思考角度會給你兩種不同的實現方式

比如說這是未向量化的代碼實現方式 計算 h(x) 是未向量化的我的意思是沒有被向量化我們可能首先要初始化變量 prediction 的值為0.0 而這個變量 prediction 的最終結果就是 h(x) 然后我要用一個 for 循環 j 取值 0 到 n+1 變量prediction 每次就通過自身加上 theta(j) 乘以 x(j) 更新值這個就是算法的代碼實現順便我要提醒一下這里的向量我用的下標是 0 所以我有 θ0 θ1 θ2 但因為 MATLAB 的下標從1開始在 MATLAB 中 θ0 我們可能會用 theta(1) 來表示這第二個元素最后就會變成 theta(2) 而第三個元素最終可能就用 theta(3) 表示因為 MATLAB 中的下標從1開始即使我們實際的 θ 和 x 的下標從0開始這就是為什么這里我的 for 循環 j 取值從 1 直到 n+1 而不是從 0 到 n 清楚了嗎？但這是一個未向量化的代碼實現方式我們用一個 for 循環對 n 個元素進行加和

作為比較接下來是 向量化的代碼實現 你把 x 和 θ 看做向量而你只需要令變量 prediction 等於 theta轉置乘以 x 你就可以這樣計算與其寫所有這些 for 循環的代碼你只需要一行代碼這行代碼右邊所做的就是利用 Octave 的高度優化的數值線性代數算法來計算兩個向量的內積 θ 以及 x 這樣向量化的實現不僅僅是更簡單它運行起來也將更加高效
這就是 Octave 所做的而向量化的方法在其他編程語言中同樣可以實現讓我們來看一個 C++ 的例子 這就是未向量化的代碼實現的樣子我們再次初始化變量 prediction 為 0.0 然后我們現在有一個完整的從 j 等於 0 直到 n 變量 prediction += theta 乘以 x 再一次你有這樣的自己寫的 for 循環與此相反使用一個比較好的 C++ 數值線性代數庫你就可以用這個方程來寫這個函數與此相反使用較好的 C++ 數值線性代數庫 你可以寫出像這樣的代碼因此取決於你的數值線性代數庫的內容你可以有一個對象 (object) 像這個 C++ 對象 theta 和一個 C++ 對象向量 x 你只需要用 theta.transpose ( ) 乘以 x 而這次是讓 C++ 來實現運算因此你只需要在 C++ 中將兩個向量相乘根據你所使用的數值和線性代數庫的使用細節的不同你最終使用的代碼表達方式可能會有些許不同但是通過一個庫來做內積你可以得到一段更簡單更有效的代碼

現在讓我們來看一個更為復雜的例子提醒一下這是線性回歸算法梯度下降的更新規則 所以我們用這條規則對 j 等於 0 1 2 等等的所有值更新對象 θj 我只是用 θ0 θ1 θ2 來寫方程那就是假設我們有兩個特征量所以 n等於2 這些都是我們需要對 θ0 θ1 θ2 進行更新你可能還記得在以前的視頻中說過這些都應該是同步更新

因此讓我們來看看我們是否可以拿出一個 向量化的代碼實現 這里是和之前相同的三個方程只不過寫得小一點而已你可以想象實現這三個方程的方式之一就是用一個 for 循環就是讓 j 等於0 等於等於2 來更新 θj 但讓我們用向量化的方式來實現看看我們是否能夠有一個更簡單的方法基本上用三行代碼或者一個 for 循環一次實現這三個方程讓我們來看看怎樣能用這三步並將它們壓縮成一行向量化的代碼來實現做法如下我打算把 θ 看做一個向量然后我用 θ 減去 α 乘以某個別的向量 δ 來更新 θ 這里的 δ 等於 m 分之 1 對 i=1 到 m 進行求和然后這個表達式對吧? 讓我解釋一下是怎么回事在這里我要把 θ 看作一個向量有一個 n+1 維向量我是說 θ 被更新我們的 n+1 維向量 α 是一個實數 δ 在這里是一個向量所以這個減法運算是一個向量減法沒問題吧 ? 因為 α 乘以 δ 是一個向量所以 θ 就是 θ 減去 α 乘以 δ 得到的向量那么什么是向量 δ 呢 ? 嗯向量 δ 是這樣子的這部分實際上代表的就是這部分內容具體地說 δ 將成為 n+1 維向量並且向量的第一個元素就等於這個所以我們的 δ 如果要寫下標的話就是從零開始 δ0 δ1 δ2 我想要的是 δ0 等於這個第一行綠色框起來的部分事實上你可能會寫出 δ0 是 m 分之 1 乘以 h(x(i)) 減去 y(i) 乘以 x(i)0 的求和所以讓我們在同一頁上計算真正的 δ δ 就是 m 分之 1 乘以這個和那這個和是什么 ? 嗯這一項是一個實數這里的第二個項是 x(i) 這一項是一個向量對吧 ? 因為 x(i) 可能是一個向量這將是 x(i)0 x(i)1 x(i)2 對吧 ? 那這個求和是什么 ? 嗯這個求和就是這里的式子這里的這一項等於 h(x(1)) - y(1) 乘以 x(1) 加上 h(x(2)) - y(2) 乘以 x(2) 依此類推對吧 ? 因為這是對 i 的加和所以當 i 從 1 到 m 你就會得到這些不同的式子然后作加和每個式子的意思很像如果你還記得實際上在以前的一個小測驗如果你要解這個方程我們說過為了向量化這段代碼我們會令 u = 2v +5w 因此我們說向量u 等於2乘以向量v 加上 5乘以向量 w 用這個例子說明如何對不同的向量進行相加這里的求和是同樣的道理這一部分只是一個實數就有點像數字 2 而這里是別的一些數字來乘以向量x1 這就像是 2v 只不過用別的數字乘以 x1 然后加上你知道不是5w 而是用別的實數乘以一個別的向量然后你加上其他的向量這就是為什么總體而言在這里這整個量 δ 就是一個向量具體而言對應這三個 δ 的元素如果n等於2 δ 的三個元素一一對應這個第二個以及這第三個式子這就是為什么當您更新 θ 值時根據 θ - αδ 這個式子我們最終能得到完全符合最上方更新規則的同步更新我知道幻燈片上的內容很多

但是再次重申請隨時暫停視頻我也鼓勵你一步步對比這兩者的差異如果你不清楚剛才的內容我希望你能一步一步讀幻燈片的內容 以確保你理解為什么這個式子用 δ 的這個定理 定義的好嗎 ? 以及它為什么和最上面的更新方式是等價的為什么是這樣子的就是這里的式子這就是向量 x 而我們只是用了你知道這三個計算式並且壓縮成一個步驟用這個向量 δ 這就是為什么我們能夠向量化地實現線性回歸所以我希望步驟是有邏輯的請務必看視頻並且保證你確實能理解它如果你實在不能理解它們數學上等價的原因你就直接實現這個算法也是能得到正確答案的所以即使你沒有完全理解為何是等價的如果只是實現這種算法你仍然能實現線性回歸算法所以如果你能弄清楚為什么這兩個步驟是等價的那我希望你可以對向量化有一個更好的理解以及最后如果你在實現線性回歸的時候使用一個或兩個以上的特征量有時我們使用幾十或幾百個特征量來計算線性歸回當你使用向量化地實現線性回歸通常運行速度就會比你以前用你的 for 循環快的多也就是自己寫代碼更新 θ0 θ1 θ2 因此使用向量化實現方式你應該是能夠得到一個高效得多的線性回歸算法而當你向量化我們將在之后的課程里面學到的算法這會是一個很好的技巧無論是對於 Octave 或者一些其他的語言如C++ Java 來讓你的代碼運行得更高效

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Octave快速入門 Ubuntu 16.04 下octave的使用入門 octave基本語法 Octave安裝 Octave的安裝 OCTAVE畫圖 Mac下安裝octave 在mac上使用octave octave矩陣運算 Octave中的矩陣操作