數據工程師必備的8項技能,不要只知道Python!


歡迎關注公眾號:機器學習算法與Python實戰(ID:tjxj666)

原作:Mohammed M Jubapu
譯者:機器學習算法與Python實戰(公眾號ID:tjxj666)
英文https://www.linkedin.com/pulse/skills-build-data-engineering-mohammed-m-jubapu/

數據工程師是當今市場上最受歡迎的工作之一。數據無處不在,被認為是新時代的能源。公司從不同來源生成大量數據,數據工程師的任務是組織數據信息的收集,處理和存儲。但是,要成為一名數據工程師,您需要具備一些出色的技能,例如數據庫,大數據,ETL和數據倉庫,雲計算以及編程語言。但是問題來了,您是否想擁有所有這些技能,或者您想使用所有工具?為簡化此操作,讓我們抓住機會,直接深入研究數據工程人才市場中的最新技能,這肯定會增加您現有的職業生涯或協助您開始數據工程之旅。

1-精通一種編程語言

是的,編程語言是數據工程的必備技能。多數職位概況要求精通至少一種編程語言。這些語言是ETL或數據管道框架所必需的。通用編程語言是總體上掌握數據工程和管道所需的核心編程技能。比如,Java和Scala用於在Hadoop上編寫MapReduce作業。Python是數據分析和管道的流行選擇,而Ruby也是廣泛流行的應用程序粘合劑。

2- Python是最受關注的技能

Python!Python!Python!是的,大約70%的工作簡介中具有Python作為必備技能,其次是SQL,Java,Scala和其他編程技能,例如R,.Net,Perl,Shell腳本等。

3- Apache Spark在數據處理層的頂部

數據處理是將數據收集和處理為可用的所需形式。Apache Spark排在數據處理層的首位,其次是AWS Lambda,Elasticsearch,MapReduce,Oozie,Pig,AWS EMR等。ApacheSpark是一個功能強大的開源框架,可提供交互式處理,實時流處理,批處理,並以非常快的速度,標准接口和易用性進行內存處理。

4- Rest API通常用於數據收集

對於需要分析或處理的任何數據,首先需要將其收集或吸收到數據管道中。REST API是用於此目的的常用工具,其次是Sqoop,Nifi,Azure Data Factory,Flume,Hue等。

5-數據緩沖最常見的是Apache Kafka

數據緩沖是數據工程框架中的關鍵部分,在將數據從一個地方移到另一個地方以適應大量數據時,需要臨時存儲數據。Apache Kafka是常用的分布式數據存儲,經過優化可實時攝取和處理流數據。流數據是由數千個數據源連續生成的數據,這些數據源通常同時發送數據記錄。流平台需要處理這種不斷涌入的數據,並按順序和增量地處理數據。此類別中的其他工具是Kinesis,Redis Cache, GCP Pub/Sub 等。

6-存儲數據– SQL或NoSQL

數據需要存儲以進行處理,分析或可視化,以生成有價值的結果。數據存儲可以采用數據倉庫,Hadoop,數據庫(RDBMS和NoSQL),數據集市的形式。緊隨其后的是Hive,AWS Redshift,MongoDB,AWS S3,Cassandra,GCP BigQuery等SQL技能。

7-使用Tableau或PowerBI進行數據可視化

數據可視化是以圖形,圖表或其他可視格式表示數據或信息。它傳達數據與圖像的關系。TableauPowerBI領先於競爭對手,其次是SAP Business Objects,Qlik,SPSS,QuickSight,MicroStrategy等。

8-數據工程雲平台

有不同的基於雲或內部部署的平台,可用於不同的數據工程工具集。列出的典型代表是Hadoop,Google Cloud Platform,AWS,AzureApprenda

好吧,絕非必須精通所有技能和工具,但是通常需要在每個數據管道框架類別中至少掌握其中一個,例如針對雲平台的GCP,針對開發的Python,針對數據處理的Apache Spark,針對數據收集的Rest API,針對數據緩沖的Apache Kafka,針對數據存儲的Hive,用於數據可視化的PowerBI


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM