學會數據分析還得看這4個實戰項目!


前言:

大數據的火熱,導致大數據挖掘分析工作也異常火熱,成為很多小伙伴的職業選擇,如果你想學會如何分析數據以及挖掘數據,那么這4個項目可一定不要錯過。

【ebay在線拍賣數據分析】

本節課程我們將介紹另外一個國際貿易門戶--ebay,一個致力於為中國商家開辟海外網絡直銷渠道的平台。我們可以在這個平台上充當買家或是賣家。與淘寶不同的是,這個平台不是一口價交易,而是設置一個開始競投的價格后開始拍賣。

這節課程我們就是要利用ebay上的歷史拍賣數據,用機器學習的方法來訓練一個模型,以預測一項拍賣是否會成功,和成功的交易最終的成交價格。

涉及知識點:

  • 學習如何用scikit-learn的機器學習算法
  • scikit-learn 做數據分析
  • 數據分析結果可視化

訓練過程截圖:

訓練過程截圖

【使用 Spark 和 D3.js 分析航班大數據】

相信很多在機場等待飛行的旅客都不願意聽到這句話。隨着乘坐飛機這種交通方式的逐漸普及,航延延誤問題也一直困擾着我們。航班延誤通常會造成兩種結果,一種是航班取消,另一種是航班晚點。

在本課程中,我們將通過 Spark 提供的 DataFrame、 SQL 和機器學習框架等工具,基於 D3.js 數據可視化技術,對航班起降的記錄數據進行分析,嘗試找出造成航班延誤的原因,以及對航班延誤情況進行預測。

涉及知識點:

  • Spark DataFrame 操作
  • Spark SQL 常用操作
  • Spark MLlib 機器學習框架使用

效果圖:

效果截圖

【NBA常規賽結果預測——利用Python進行比賽數據分析】

不知道你是否朋友圈被刷屏過nba的某場比賽進度或者結果?或者你就是一個nba狂熱粉,比賽中的每個進球,搶斷或是逆轉壓哨球都能讓你熱血沸騰。除去觀賞精彩的比賽過程,我們也同樣好奇比賽的結果會是如何。

因此本節課程,將給同學們展示如何使用nba比賽的以往統計數據,判斷每個球隊的戰斗力,及預測某場比賽中的結果。我們將基於2015-2016年的NBA常規賽及季后賽的比賽統計數據,預測在當下正在進行的2016-2017常規賽每場賽事的結果。

利用Basketball-reference.com的部分統計數據,計算每支nba比賽隊伍的Elo socre,和利用這些基本統計數據評價每支隊伍過去的比賽情況,並且根據國際等級划分方法Elo Score對隊伍現在的戰斗等級進行評分,最終結合這些不同隊伍的特征判斷在一場比賽中,哪支隊伍能夠占到優勢。

Paste_Image.png

涉及知識點:

  • nba球隊的Elo score計算
  • 特征向量
  • 邏輯回歸

效果圖:

效果截圖

【大數據帶你挖掘打車的秘籍】

出租車是我們生活中經常乘坐的一種交通工具,但打車難的問題也限制了我們更好地利用這種交通方式。在哪些地方出租車更容易打到?在什么時候更容易打到出租車?本課程將基於某市的出租車行駛軌跡數據,帶你學習如何應用Spark SQL和機器學習相關技巧,並且通過數據可視化手段展現分析結果。

涉及知識點:

  • Spark DataFrame操作
  • Spark SQL 的 API 查詢
  • Spark MLlib 的 KMeans 算法應用

效果圖:

效果截圖

效果截圖

后記

當然,要學好數據分析,只看以上4個項目是遠遠不夠的,如果感興趣,你還可以看以下項目:

更多相關教程,點擊實驗樓進行查看~


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM