月薪3萬+的大數據人都在瘋學Flink,為什么?


身處大數據圈近5年了,在我的概念里一直認為大數據最牛的兩個東西是Hadoop和Spark。18年下半年的時候,我突然發現身邊很多大數據牛人都是研究學習Flink,甚至連Spark都大有被冷落拋棄的感覺。何以至此,Flink是個什么鬼?

 

Apache Flink(簡稱Flink)是一個分布式大數據處理引擎,可對有限數據流和無限數據流進行有狀態計算。可部署在各種集群環境,對各種大小的數據規模進行快速計算。

 

大數據生態圈很龐大,優秀的框架和組件就筆者了解的不下20個,為何Flink如此受寵?那么多人而且還是薪資待遇不錯的大數據技術人要痴迷於它?筆者總結一下,大概以下幾個原因:

1. 從技術角度來說,目前大數據計算引擎中, 能夠同時支持流處理和批處理的計算引擎,只有Spark和Flink。其中Spark的技術理念是基於批來模擬流的計算。而Flink則完全相反,它采用的是基於流計算來模擬批計算。從技術發展方向看,用批來模擬流有一定的技術局限性,並且這個局限性可能很難突破。而Flink基於流來模擬批,在技術上有更好的擴展性。

2. 從語言方面來說,雖然Flink和Spark都支持多種語言,但Flink核心語言是Java,而Spark核心語言是Scala。Java語言毫無疑問用戶基礎更大,無論從技術選型還是團隊人員穩定方面考慮,以Java作為核心語言的Flink更受偏愛。

3. 大公司的風向標作用, 阿里全面轉向Flink無疑是一個催化劑。目前,阿里巴巴所有的業務,包括阿里巴巴所有子公司都采用了基於Flink搭建的實時計算平台。其實不光阿里,國內很多一線的公司都投入很多人力和財力在Flink實時計算上。

4. 這個框架的性能表現確實很優秀, Flink最初上線阿里巴巴只有數百台服務器,目前規模已達上萬台,此等規模在全球范圍內也是屈指可數;基於Flink,阿里內部積累起來的狀態數據已經是PB級別規模;如今每天在阿里Flink的計算平台上,處理的數據已經超過萬億條;在峰值期間可以承擔每秒超過4.72億次的訪問,最典型的應用場景是阿里巴巴雙11大屏。對這方面感興趣的同學可以看看 阿里巴巴計算平台事業部資深技術專家莫問在雲棲大會的演講內容 —— 阿里巴巴為什么選擇Apache Flink?

5. 想彎道超車,大家都知道,大數據已經火了好幾年了,進入這行早的當然是沾盡了趨勢紅利,有新的好東西出來自然也有精力有興趣去研究學習。而稍晚的同學,也想彎道超車,占領更好的“坑”,提薪更不在話下。如果你已經在做大數據,學會Flink提薪5K不是難事,如果你還沒有進大數據這個領域,那么以Flink為主要方向不失為明智的想法。

 

那么,如何快速學習、學會Flink甚至成為Flink高手呢?現階段最直接的方式有三個:

1. 通過翻閱官方文檔,這種方式適合學習很多大數據技能,不過這種方式對個人英語水平要求高,同時也比較費時,學習起來相對費力,碰到問題也不太容易解決,需要找到組織,多人一起學習一起交流。有興趣的同學可加QQ群:732021751。

2. 通過看書學習,很遺憾,Flink這塊目前還沒有系統、實戰性強的書出來,預計還得再等等。

3. 看Flink老鳥的分享視頻,這個確實是一個可選方案,適合想快速學好Flink並積累一些項目經驗的同學。目前各大IT學習平台比較熱門的應該要數《Flink大數據項目實戰》這套視頻啦,感興趣的 -> 戳此鏈接


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM