Spark簡介:
Spark是UC Berkeley AMP lab開發的一個集群計算的框架,類似於Hadoop,但有很多的區別。最大的優化是讓計算任務的中間結果可以存儲在內存中,不需要每次都寫入HDFS,更適用於需要迭代的MapReduce算法場景中,可以獲得更好的性能提升。
例如一次排序測試中,對100TB數據進行排序,Spark比Hadoop快三倍,並且只需要十分之一的機器。Spark集群目前最大的可以達到8000節點,處理的數據達到PB級別,在互聯網企業中應用非常廣泛。
這里整理5個Spark的應用實例,希望對Spark學習者能夠有所幫助~
【使用 Spark 進行流量日志分析】
日志在計算機系統中是一個非常廣泛的概念,任何程序都有可能輸出日志:操作系統內核、各種應用服務器等等。日志包含很多有用的信息,例如訪問者的 IP、訪問的時間、訪問的目標網頁、來源的地址以及訪問者所使用的客戶端的 UserAgent 信息等,分析日志能幫助企業營銷做出決策。
這個項目介紹如何用 Spark 分析日志,開始介紹了日志的分類,然后從日志不斷簡化數據,最終只留下4 個字段,最后以手機號標准,分別按照,上行流量,下行流量,報告時間戳進行倒序排序, 希望學完本節課,能幫助您理解學會運用 Spark 去處理復雜日志分析。
【大數據帶你挖掘打車的秘籍】
出租車是我們生活中經常乘坐的一種交通工具,但打車難的問題也限制了我們更好地利用這種交通方式。在哪些地方出租車更容易打到?在什么時候更容易打到出租車?該項目基於某市的出租車行駛軌跡數據,帶你學習如何應用Spark SQL和機器學習相關技巧,並且通過數據可視化手段展現分析結果。
過程圖:
【Spark 實現黑名單實時過濾】
這個項目主要講解 Spark 的 RDD 操作,讓您對 Spark 算子的特性快速了解。通過演示案例實時黑名單過濾,讓您切身體會到 RDD 的強大功能,然后學以致用。
【Spark流式計算電商商品關注度】
該項目使用Scoket來模擬用戶瀏覽商品產生實時數據,數據包括用戶當前瀏覽的商品以及瀏覽商品的次數和停留時間和是否收藏該商品。使用Spark Streaming構建實時數據處理系統,來計算當前電商平台最受人們關注的商品是哪些。適合有一定的Java編程基礎以及一定得Spark知識,了解Streaming的工作機制的同學學習
效果圖:
【使用 Spark 和 D3.js 分析航班大數據】
該項目通過一個航班數據分析實例來學習 Spark 綜合技巧和數據可視化技術。在航班數據分析實驗中,可以學習到如何使用 OpenRefine 進行簡單的數據清洗,以及如何通過 Spark 提供的 DataFrame、 SQL 和機器學習框架等工具,對航班起降的記錄數據進行分析,嘗試找出造成航班延誤的原因,以及對航班延誤情況進行預測。在數據可視化實驗中,可以學習到 D3.js 中的數據讀取、插值、元素選取、屬性設置等 API 的用法。
效果圖:
最后:
以上5個Spark實例教程希望對你有所幫助,更多Spark教程,點擊這里即可查看~