spark和mapreduce的區別


spark和mapreduced 的區別
map的時候處理的時候要落地磁盤 每一步都會落地磁盤 reduced端去拉去的話 基於磁盤的迭代
spark是直接再內存中進行處理 dag 執行引擎是一個job的優化 將一個job話成很多快 分成多個task去跑任務 讀取數據來源比喻亞馬遜的s3 和hbase很廣運行模式也有很多
spark項目一般java 和scala 來寫 python r 但是弊端是 python有很多java和scala的方法得自己寫 沒有 所以常用的就是java和scala\
yarn的主節點交rsmanger 從節點nodemanger 管理任務的是aplicationmaster
1.x中是jobtraker 2.x中引入了yarn mesos也是元調度框架在國外用的比較多 每個快是128m 數據來源可以是hdfs 9083mestore端口可以找到hive中的元數據hive不支持同事多個用戶去連接mysql是支持的底層是mapreducejob
storm 更多的是想sparkstreaming去轉 他不是說進來一條數據處理一條可以認為的控制 可以小到storm的微處理大到批處理 streaming 我可以拿過去一天和 過去一個月的數據就比較多了處理起來邏輯就復雜了 進行處理 spark的主件基本底層都是rdd sparkcore里面主要來做數據分析 etl
sparksql 底層解析的是sparksql 而hive的是mapreducejob 一個基於內存一個是磁盤

個人淺見 不足之處請多指正


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM