【原】Coursera—Andrew Ng機器學習—Week 6 習題—Advice for applying machine learning


【1】 診斷的作用

【2】過擬合

【3】

【4】

高偏差bias,欠擬合underfitting

高方差variance,過擬合overfitting

【5】參數λ

Answer:  λ太大,則參數都被懲罰,導致欠擬合,兩個J都大。  λ太小,則欠擬合,Jtrain 小,Jcv大。

 【6】

Answer:過擬合的時候,增加訓練集有用。

【7】

Answer:過擬合,增加 hidden 層數無用。

-------------------------------------- 下面是Lecture 11 的內容

 【8】

Answer:

A 正確。不容易猜測哪個feature是最有用的

B 錯誤。是一種方法,significant improve 不一定

C 錯誤。 是一種方法,always be good 不一定

D 正確。gut feeling直覺,不推薦只根據直覺判斷。

【9】Jtest 和 Jcv

【10】錯誤度量

Answer: Precision = 80/(20+80) = 0.8,  Recall = 80/(80+80) = 0.5

【11】 F1 score

【12】大數據集

Answer:如果數據所含的信息很少,增大數據集也不能解決問題。


 

測驗

Answer:第一個欠擬合,兩個誤差都大。第二個過擬合,train小,cv大。      

Answer:BC,過擬合:使用小的特征集, 增大λ。

Answer:AB,欠擬合:增大特征集, 增加多項式次數,減小λ。

 Answer:AD

         

       

Answer:ABCF

A 高偏差,欠擬合說明模型不好,應該增加feature

C 參數過多,更容易過擬合

D 錯誤。增加 hidden 數,不能解決過擬合

E 錯誤。欠擬合,通過增加feature可以優化

F 過擬合,通過增加訓練集可以優化

 

--------------- 下面是Lecture11 的內容

Answer: recall=85/(85+15)=0.85

Answer: BD

A 錯誤。如果features太少,多加入polynomial features 也不能夠完全模擬出訓練樣本的特征。就像預測房價,只用房子面積這一個特征,再加上面積1次方,2次方組成的polynomial,就算訓練樣本再多,也不能預測出正確的房價
B 正確 給專家一個x feature就可以准確的預測出y. 即所選的特征x含有足夠的信息來准確預測y

D 正確。我們的學習算法能夠表示相當復雜的功能(例如,訓練神經網絡或其他具有大量參數的模型)。模型復雜,表示復雜的函數,此時的特征多項式可能比較多,能夠很好的擬合訓練集中的數據,使用大量的數據能夠很好的訓練模型。

 

Answer:D

threshould 設定越低,查准率precision越低、查全率recall越高,因為更多負例被判斷為正例。

threshould 設定越高,查准率precision越高、查全率recall越低,因為有更多正例被漏掉。

    

Answer:ACDFG

  • Accuracy = (true positives + true negatives) / (total examples)
  • Precision = (true positives) / (true positives + false positives)
  • Recall = (true positives) / (true positives + false negatives)
  • F1 score = (2 * precision * recall) / (precision + recall)

A 正確。好的模型應該同時具有較高的precision和recall

B 錯誤。表現應該類似

C 正確。如果都判斷為非垃圾郵件,recall=0/(0+99)=0,precision=0/(0+1)=0,accurancy=(0+99)/100 = 0.99

D 正確。交叉驗證集合和訓練集來源相同,表現應該類似。

E 錯誤。如果都判斷為垃圾郵件,recall=1/(1+0)=1,precision=1/(99+1)=0.01

F 正確。同C

G 正確。同E

 

   

Answer:DEF

A 錯誤。不應該開始就花大量時間去收集大量數據,而應該有重點地收集有用數據

B 錯誤。模型欠擬合,多收集數據沒有幫助。如果模型太簡單、特征太少,則應該增加多項式特征,而不是收集數據

C 錯誤。因為可能存在偏斜數據集,最終閾值不一定是0.5

D 正確。手動檢查分類錯誤的數據會有幫助

E 正確。使用特別大的數據集合能避免過擬合

F 正確。在很偏斜的數據集上,應該使用F1 值,而不是使用accuracy


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM