【技術與商業案例解讀筆記】095:Google大數據三駕馬車筆記


 1.谷歌三駕馬車地位

【關鍵詞】開啟時代,指明方向

聊起大數據,我們通常言必稱谷歌,谷歌有“三駕馬車”:谷歌文件系統(GFS)、MapReduce和BigTable。谷歌的“三駕馬車”開啟了大數據時代,並為我們指明了大數據的發展方向。

2.谷歌三駕馬車誕生
(1)誕生時間

【關鍵詞】2010、2003、2004、2006
大數據在2010年開始有火起來的苗頭,谷歌三駕馬車誕生更早。谷歌文件系統第一次公開發表的論文是在2003年,MapReduce公開發表的時間是2004年,而BigTable則公開發表於2006年。
(2)誕生背景

【關鍵詞】海量存儲、倒排索引、增量更新

三駕馬車”,主要是為谷歌的核心搜索業務服務的。谷歌搜索業務,需要存儲整個互聯網的內容,並且要在這個內容的基礎上構建倒排索引。

谷歌文件系統:基於大量的廉價個人計算機的海量存儲系統,它可以輕松地存儲整個互聯網的內容。

MapReduce:海量數據計算引擎,是Google第一代倒排索引基礎,它可以大規模並行地處理整個互聯網上的所有文檔。有天然缺陷,每次更新索引需全量更新所有索引,耗時幾天,新的信息更新不及時。

BigTable:一個鍵值存儲系統,可存儲一個主鍵的不同時期的多個版本的值。使用互聯網地址作為某個BigTable的主鍵,只更新那些值已經發生變化的互聯網地址,可實現增量更新索引。


Tips:倒排索引是對互聯網內容的一種索引方法,是指從搜索詞到對應的互聯網文檔的索引方法。用戶可以通過搜索詞去搜索互聯網,返回的則是和搜索詞相關的文檔。之所以稱為倒排索引,是因為文檔到文檔里面的詞是順序的,而從文檔里面的詞到文檔是逆序的。

3.個性化廣告推薦服務

【關鍵詞】互聯網模式,用戶隱私數據分析

三駕馬車其它應用,最著名的是個性化廣告推薦業務。首創了流行互聯網模式“羊毛出在狗身上,豬來買單”。
具體來說,谷歌通過提供免費的互聯網服務,比如搜索、郵箱、地圖等(狗),然后記錄並分析用戶的使用習慣,有針對性地為用戶提供個性化的廣告推薦服務(羊毛),企業廣告主來買單。
個性化推薦實現,主要是利用谷歌對用戶隱私數據的分析。谷歌文件系統和BigTable用來存儲和記錄用戶的隱私信息和產品使用情況,MapReduce用來分析海量數據。

4.技術封閉

【關鍵詞】技術封閉, hadoop崛起,一無所獲

個性化廣告推薦業務這種互聯網模式非常賺錢,但只有Google具備這樣的強大數據存儲、分析和處理能力,而且它也沒有打算開放這些獨家技術。雅虎和Facebook,覺得憑借一己之力很難做到,於是開始抱團取暖,與眾多互聯網公司聯合打造了后來聞名於世的Hadoop生態圈,並讓Hadoop成為事實上的標准。谷歌自此徹底喪失了在大數據時代的先發優勢,后來谷歌對外提供的雲服務也不得不和這個Hadoop生態圈兼容。

谷歌在大數據上,可謂“起個大早,趕個晚集”。它給大家指明了方向,最后確一無所獲。

 

參考文檔

谷歌的大數據路:從“三駕馬車”到一無所有


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM