機器學習西瓜書課后習題答案---1、緒論


機器學習西瓜書課后習題答案---1、緒論

一、總結

一句話總結:

一些【特別花時間又不太重要】的東西(比如一些概念),可以【多參照別人的視頻解釋】,這樣節約時間

 

1、試述機器學習在互聯網搜索的哪些環節起什么作用?

1.【消息推送】:比如當我搜索“機器學習”之后,再打開某些網頁的時候,會推送有關機器學習培訓的廣告
2.【網站相關度排行】:通過點擊量,網頁內容進行綜合分析。
3.【圖片搜索】:現在大部分還是通過標簽來搜索,不過基於像素的搜索也總會有的吧。

 

二、1、緒論

轉自或參考:

一、問題

 

 

二、參考答案1

以下是博客https://blog.csdn.net/benzhaohao/article/details/78913588?utm_medium=distribute.pc_feed_404.none-task-blog-searchFromBaidu-5.nonecase&depth_1-utm_source=distribute.pc_feed_404.none-task-blog-searchFromBaidu-5.nonecas的結果

1.1求版本空間

首先看版本空間的定義,這篇文章寫的很好

http://blog.csdn.net/qq_18433441/article/details/55682732

概況說來,版本空間就是從假設空間剔除了與正例不一致和與反例一致的假設,它可以看成是對正例的最大泛化。

現在只有西瓜1和西瓜4兩個樣本:
西瓜1((色澤=青綠、根蒂=蜷縮、敲聲=濁響),好瓜))為正例,找到假設空間中和它一致的假設:1,2,4,7,10,16,22,31
西瓜4((色澤=烏黑、根蒂=稍蜷、敲聲=沉悶),壞瓜)為反例,找到假設空間中和它一致的假設:1,3,6,9,15,21,30,48
從西瓜1的結果,去除西瓜4的結果,得到版本空間:2,4,7,10,16,22,31

1.2與使用單個合取式來進行假設表示相比,使用“析合范式”將使得假設空間具有更強的表示能力。若使用最多包含k個合取式的析合范式來表達1.1的西瓜分類問題的假設空間,試估算有多少種可能的假設。

http://blog.csdn.net/icefire_tyh/article/details/52065626

1.3.若數據包含噪聲,則假設空間中可能不存在與所有訓練樣本都一致的假設。在此情形下,試設計一種歸納偏好用於假設選擇


通常認為兩個數據的屬性越相近,則更傾向於將他們分為同一類。若相同屬性出現了兩種不同的分類,則認為它屬於與他最臨近幾個數據的屬性。也可以考慮同時去掉所有具有相同屬性而不同分類的數據,留下的數據就是沒誤差的數據,但是可能會丟失部分信息。

1.4.本章1.4節在論述“沒有免費的午餐”定理時,默認使用了“分類錯誤率”作為性能度量來對分類器進行評估。若換用其他性能度量l,試證明沒有免費的午餐”定理仍成立


還是考慮二分類問題,NFL首先要保證真是目標函數f均勻分布,對於有X個樣本的二分類問題,顯然f共有2X種情況。其中一半是與假設一致的,也就 P(f(x)=h(x))=0.5。
此時, ∑fl(h(x),f(x))=0.5∗2X∗(l(h(x)=f(x))+l(h(x)≠f(x)))
l(h(x)=f(x))+l(h(x)≠f(x))應該是個常數,隱含的條件就該是(一個比較合理的充分條件) l(0,0)=l(1,1),l(1,0)=l(0,1)。如果不滿足, NFL 應該就不成立了(或者不那么容易證明)。

1.5.試述機器學習在互聯網搜索的哪些環節起什么作用


1.消息推送。比如當我搜索“機器學習”之后,再打開某些網頁的時候,會推送有關機器學習培訓的廣告
2.網站相關度排行,通過點擊量,網頁內容進行綜合分析。
3.圖片搜索,現在大部分還是通過標簽來搜索,不過基於像素的搜索也總會有的吧。

 

三、找到的參考答案2

以下是博客https://blog.csdn.net/u010083327/article/details/79653053?utm_medium=distribute.pc_feed_404.none-task-blog-BlogCommendFromBaidu-2.nonecase&depth_1-utm_source=distribute.pc_feed_404.none-task-blog-BlogCommendFromBaidu-2.nonecas的內容

 

 

表1.1 包含4個樣例,3種屬性,假設空間中有3 * 4 * 4 + 1 = 49種假設。在不考慮冗余的情況下,最多包含k個合取式來表達假設空間,顯然k的最大值是49,每次從中選出k個來組成析合式,共​種可能。但是其中包含了很多沉余的情況(至少存在一個合取式被剩余的析合式完全包含<空集除外>)。

如果考慮沉余的情況 在這里忽略空集,一個原因是並不是太明白空集是否應該加入析合式,另外就算需要加入,求出了前面48種假設的組合,可以很容易求出加入空集后的組合數(每種可能都可以加上空集,再加上1種空集單獨的情況)。 48種假設中: 具體假設:2∗3∗3=18種 一個屬性泛化假設:2∗3+3∗3+2∗3=21種 兩個屬性泛化假設:2+3+3=8種 三屬性泛化:1種

回答1:
1). 通常認為兩個數據的屬性越相近,則更傾向於將他們分為同一類。若相同屬性出現了兩種不同的分類,則認為它屬於與他最臨近幾個數據的屬性。
2). 也可以考慮同時去掉所有具有相同屬性而不同分類的數據,留下的數據就是沒誤差的數據,但是可能會丟失部分信息。
回答2:
1). 定義一個閾值,只要訓練后滿足的樣本數量百分比達到這個閾值即可。
2). 在訓練過程中選擇滿足最多樣本的假設。

 

NFL首先要保證真目標函數f均勻分布。對於X個訓練數據的二分類問題,顯然f共有種情況,其中一半是與假設一致的,也就是P(f(x) = h(x)) = 0.5.因此,其中應為常數,如果性能度量為錯誤率,二者各為0.5,則該值為1,如果為其他性能度量,根據網友的想法:,應當隱含這樣的充分條件。

https://wenku.baidu.com/view/fd90c73f4b35eefdc8d3335e.html



 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM