1、成為一名數據分析師需要具備哪些技能?
要成為一名數據分析師,需要掌握豐富的報告軟件包(Business
Objects),編程語言(XML,Javascript或ETL框架),數據庫(SQL,SQLite等);能夠准確分析、組織、收集或傳播數據;掌握數據庫設計,數據模型,數據挖掘等方面的技術知識以及分析大型數據集(SAS,Excel,SPSS等)的統計軟件包知識。
2、分析項目的各個步驟包括:
·問題定義
·數據挖掘
數據准備
模型化
數據認證
實施跟蹤
3、列出數據清理的最佳實踐?
一些數據清理的最佳實踐包括:
按不同的屬性排序數據。
對於大數據集,逐步清理並改進數據,直到獲得良好的數據質量。
對大型數據集,可以先將其分解為小數據集,使用更少的數據將增加迭代速度。
要處理常見的清理任務,請創建一組實用程序函數/工具/腳本。它可能包括基於CSV文件或SQL數據庫重映射值,或者正則表達式搜索和替換,消除所有不匹配正則表達式的值。如果在數據清理方面存在問題,請按照估計的頻率進行安排並解決問題分析每列的匯總統計數據(標准差,均值,缺失值的數量),保持對每一個清理操作的跟蹤,以便可以根據需要更改或刪除操作。
4、數據挖掘和數據分析之間的區別是什么?
數據挖掘和數據分析之間的區別在於:
數據分析:針對個別屬性的實例分析。提供有關屬性的各種信息,如值范圍,離散值及其頻率,空值的發生,數據類型,長度等。
數據挖掘:重點關注聚類分析,異常記錄檢測,依賴關系,序列發現,多個屬性之間的關系控制等。
5、用於處理分布式計算環境中應用程序大數據集的Apache框架有哪些?
Hadoop和MapReduce是由Apache開發的用於處理分布式計算環境中應用程序大數據集的編程框架。
6、解釋KNN插補方法是什么?
在KNN插補中,通過使用與其值缺失的屬性最相似的屬性值來推斷缺少的屬性值。通過使用距離函數,確定兩個屬性的相似度。
7、數據分析師使用的數據驗證方法是什么?
通常,數據分析師用於數據驗證的方法是數據篩選和數據驗證。
8、解釋應該如何處理可疑或缺失數據?
准備提供所有可疑數據信息的驗證報告。它應該提供信息,如失敗的驗證標准以及發生的日期和時間,有經驗的數據分析師應該檢查可疑數據以確定其可接受性
,應該找出無效數據並用驗證碼替換,對缺失數據進行處理,使用最佳分析策略,如刪除,單一插補方法,基於模型的方法等。
9、如何避免過擬合?
過擬合表現在訓練數據上的誤差非常小,而在測試數據上誤差反而增大。其原因一般是模型過於復雜,過分得去擬合數據的噪聲和outliers。常見的解決辦法是正則化:增大數據集,正則化。
10、解釋異常值是什么?
異常值是分析師使用的一個術語,指的是一個遠遠超出樣本總體模式的值。有兩種類型的異常值:
Univariate
Multivariate
11、解釋分層聚類算法是什么?
分層聚類算法結合並划分現有的組,創建分層結構並展示組划分或合並的順序。
12、解釋K均值算法是什么?
K均值是一種著名的分區方法。對象被分類為屬於K個組中的一個,k是先驗選擇的。
在K均值算法中:
簇是球形的:簇中的數據點以該簇為中心
簇的方差/擴展是相似的:每個數據點屬於最接近的簇
13、數據分析師所需掌握的關鍵技能是什么?
數據科學家必須具備以下技能:
數據庫知識
數據庫管理
數據混合
數據查詢
數據操作
預測分析
基本描述性統計
預測建模
高級分析
大數據知識
大數據分析
非結構化數據分析
機器學習
演示技巧
數據可視化
報告設計
14、解釋協同過濾是什么?
協同過濾是一種基於用戶行為數據創建推薦系統的簡單算法。協同過濾最重要的組件是用戶對項目的興趣。
協同過濾一個很好的例子就是購物網站上出現的類似“為您推薦”的模塊,該模塊通常會獲取用戶的瀏覽記錄信息,以彈出用戶可能喜歡或需要的商品。
15、大數據中通常會使用到哪些工具?
大數據中使用的工具包括:
Hadoop
Hive
Pig
Flume
Mahout
Sqoop
16、解釋什么是KPI,實驗設計和80/20規則?
關鍵績效指標(KPI):它代表關鍵績效指標(Key Performance Indicator),它是關於業務流程的報告或圖表
實驗設計:這是用於分解數據,采樣和建立數據以進行統計分析的初始過程
80/20規則:這意味着你收入的80%來自客戶的20%
17、解釋Map Reduce是什么?
Map-Reduce是一個處理大型數據集的框架,可以將它們分解成子集,在不同的服務器上處理每個子集,然后混合每個子集上獲得的結果。
18、解釋聚類是什么?聚類算法的屬性?
聚類是一種應用於數據的分類方法。聚類算法將數據集划分為自然組或集群。
聚類算法的屬性是:
Hierarchical or flat
Iterative
Hard and soft
Disjunctive
19、對數據分析師有用的統計方法是什么?
對數據科學家有用的統計方法是
貝葉斯方法
馬爾科夫過程
空間和集群進程
統計數據,百分位數,異常值檢測
計算技巧等
簡單的算法
數學優化
20、時間序列分析是什么?
時間序列分析可以在頻域和時域兩個域中完成。在時間序列分析中,可以通過指數平滑,對數線性回歸等各種方法分析數據,來預測特定過程輸出。
21、解釋空間自相關分析是什么?
空間自相關分析是地理空間分析的常用形式。它由一系列為不同空間關系計算的估計自相關系數組成。當原始數據表示為距離而不是單個點的值時,它可以用於構建基於距離的數據相關圖。
22、散列表是什么?散列表沖突是什么?如何避免?
在計算中,哈希表(散列表)是鍵值對的映射,這是一個用於實現關聯數組的數據結構。它使用散列函數來計算一個時隙陣列的索引,從中可以獲取所需的值。
當兩個不同的鍵散列到相同的值時,發生散列表沖突。兩個數據不能存儲在陣列的同一個插槽中。
為了避免散列表碰撞,有很多技巧,這里列出兩個:
分離鏈接:它使用數據結構來存儲散列到同一個插槽的多個項目。
再探測:在找到查找位置的index的index-1,index+1位置查找,index-2,index+2查找,依次類推。這種方法稱為線性再探測。
23、解釋N-gram是什么?
N-gram是來自給定序列文本或語音的n個項目的連續序列。這是一種以(n-1)形式預測下一個項目的概率語言模型。