數據分析師(Data Analyst):負責從數據中提取出有用的信息,以幫助公司形成業務決策。工作內容包括:對數據進行提取,清洗,分析(用描述統計量,趨勢分析,多維度分析,假設檢驗等統計常用方法對數據進行分析),總結結論並提出建議。數據分析師通常從業務團隊那里獲取需要分析的具體問題,並提供相應的解決方案。高級數據分析師還需要了解各種模型(如線性回歸,決策樹等),並能調包實現這些模型。
需要掌握的技能有:熟悉業務,會使用excel,ppt等基本工具,了解統計分析方法,會使用SQL從數據庫提取數據,會編程語言和模型是加分項。
數據工程師(Data Engineer):開發,建立,測試和維護數據架構,為數據科學家獲取數據提供方便。大多數公司把數據儲存在不同的數據庫和文件系統里,並且格式也不盡相同。數據工程師建立管道(pipelines)把數據轉化為數據科學家可用的格式。(具體例子可見:https://www.dataquest.io/blog/what-is-a-data-engineer/)
需要掌握的技能有:能夠構建分布式系統,創建可靠的管道,整合數據來源,構建數據存儲系統,掌握傳統的數據庫知識,掌握大數據管理工具如Hadoop,Spark等。
數據科學家(Data Scientist):除了數據分析師所做的工作以外,還要掌握各種模型,並能用編程語言實現。數據科學家偏重於將數據應用到業務或者其他場景中,而不是解決具體問題,以此來滿足公司業務方面更復雜的需求。比如:異常檢測,產品推薦。數據科學家是隨大數據的出現而產生的,因為從大量的數據中才能提取出復雜的信息。高級數據科學家還需要能讀懂尖端paper,並應用其理念,開發出具體的模型。
需要掌握的技能有:會使用編程語言操作數據(清洗,分析,可視化);會使用SQL從數據倉庫提取數據;掌握大數據管理工具如Hadoop,Spark等;掌握統計,概率,數學方面的知識;掌握各種模型和算法並能編程實現(機器學習,深度學習)。