數據分析常見概念


一、什么是商業智能

BI:Business Intelegence,商業智能,基於數據倉庫,經過數據挖掘后,得到了商業價值的過程。例如利用數據預測用戶購物行為屬性商業智能

二、什么是數據倉庫

DW:Data Warehouse,數據倉庫,數據庫的升級概念,一般量更龐大,將多個數據來源的數據進行匯總、整理而來

三、什么是數據挖掘

DM:Data Mining,數據挖掘
數據挖掘流程:Knowledge Discovery in Database,也叫數據庫中的知識發現,簡稱KDD
KDD流程:輸入數據->數據預處理->數據挖掘->后處理->信息

  1. 數據清洗
    去除重復數據、干擾數據及填充缺失值
  2. 數據集成
    將多個數據源中的數據存放在一個統一的數據存儲中
  3. 數據變換
    將數據轉換成適合數據挖掘的形式,比如將數值東籬一個特定的0~1的區間

數據挖掘的核心

  1. 分類
    通過訓練集得到一個分類模型,然后用這個模型可以對其他數據進行分類
    分類是已知了類別,然后看樣本屬於哪個分類
  2. 聚類
    將數據自動聚類成幾個類別,
    聚類是不知道有哪些類別,按照 樣本的屬性來進行聚類
  3. 預測
    通過當前和歷史數據預測未來趨勢,可以更好地幫助我們識別機遇和風險
  4. 關聯分析
    發現數據中的關聯規則,被廣泛應用於購物、事務數據分析中

數據挖掘的基本流程

  1. 商業理解。從商業的角度理解項目需求
  2. 數據理解 。嘗試收集部分數據,對數據進行探索
  3. 數據准備。開始收集數據,並進行清洗、集成等操作
  4. 模型建立。選擇和應用數據挖掘模型,並進行優化,以便得到更好的分類結果
  5. 模型評估。對模型進行評價,確認模型是否實現了預定的商業目標
  6. 上線發布。把挖掘的知識轉換成用戶的使用形式

四、數據挖掘的數學基礎

  • 概率論與數據統計
  • 線性代數
  • 圖論
  • 最優化方法

五、數據挖掘的十大算法

  • 分類
    • C4.5。十大算法之首,決策樹算法,特點包括:1.構造過程中剪枝 2.處理連續屬性;3.處理不完整的數據
    • 朴素貝葉斯。基於概率論原理,計算未知物體出現的條件下,各個類別出現的概率,取概率最大的分類
    • SVM。 超平面的分類模型
    • KNN。每個樣本的分類都可以用其最接近的K個鄰居的分類代表
    • Adaboost。構建分類器的提升算法,可以讓多個弱的分類器組成一個強的分類器
    • CART。決策樹算法,分類樹 + 回歸樹
  • 聚類
    • K-Means。將物體分成K類,計算新點跟K個中心點的距離,哪個距離近,則新點歸為哪一類
    • EM。最大期望算法,求參數的最大似然估計的一種方法
  • 關聯分析
    • Apriori。挖掘關聯規則的算法,通過挖掘頻繁項集揭示物品之間的關聯關系
  • 連接分析
    • PageRank。起源於論文影響力的計算方式,如果一篇文論被引入的次數越多,就代表這篇論文的影響力越強,Google將其用於計算網頁權重

六、什么是數據可視化

數據可視化主要是借助於圖形化手段,清晰有效地傳達與溝通信息,讓我們直觀了解數據分析的結果

數據可視化工具:

  • python庫
    • Matplotlib
    • Seaborn
    • Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等
  • 商業智能軟件
    • Tableau
    • PowerBI
  • 可視化大屏
    大屏作為一種視覺效果強、科技感強的技術,被企業老板所青睞,可以很好地展示公司的數據化能力
    • DataV(阿里)
    • FineReport
  • 前端可視化組件
    可視化組件都是基於 Web 渲染的技術的,Web 渲染技術:Canvas(位圖)、SVG (失量圖)和 WebGL(3D繪圖)
    • Echarts
    • D3
    • Three.js
    • AntV

七、什么是用戶畫像

簡單的說,用戶畫像就是標簽的匯總
用戶畫像是現實世界中的用戶的數學建模,將海量數據進行標簽化,來復以更精准的用戶畫像
用戶標簽能產生的業務價值

  1. 在獲客上,找到優勢的宣傳渠道,通過個性化的宣傳手段吸引有潛在需求的用戶
  2. 在粘客上,提升用戶的單價和消費頻次
  3. 在留客上,降低流失率,顧客流失率降低 5%,公司利潤提升 25% ~ 85%

用戶標簽4個緯度

  1. 基礎信息
    性別、年齡、地域、收入、學歷、職業等
  2. 消費信息
    消費習慣、購買意向、是否對促銷敏感
  3. 行為分析
    時間段、頻次、時長、訪問路徑
  4. 內容分析
    瀏覽的內容、停留時長、瀏覽次數,內容類型,如金融、娛樂、教育、體育、時尚、科技等

數據處理的3個階段

  1. 業務層
    獲客預測、個性化推薦、用戶流失率、GMV趨勢預測
  2. 算法層
    用戶興趣、用戶活躍度、產品購買偏好、用戶關聯關系、用戶滿意度、渠道使用偏好、支付使用偏好、優惠券偏好
  3. 數據層
    用戶屬性、投訴次數、產品購買次數、渠道使用頻率、優惠券使用、訪問時長、支付渠道使用、瀏覽內容頻次

八、什么是埋點

在需要的位置采集相應的信息,進行上報。比如用戶信息、設備信息、操作行為數據
埋點一般是在需要統計數據的地方植入統計代碼。
第三方工具有:友盟、Google Analysis、Talkingdata等,一般是前端埋點的方式

九、數據采集都有哪些方式

  • 開源數據源
  • 爬蟲抓取
  • 日志采集
  • 傳感器

十、什么是數據清洗

數據清洗是去除重復數據、干擾數據及填充缺失值
數據清洗的4個關鍵點(完全合一)

  1. 完整性:單條數據是否存在空值,統計的字段是否完善
  2. 全面性:觀察某一列的全部數值,判斷列是否有問題,比如:數據定義、單位標識、數值本身。例如有的單位是克,有的是千克或磅
  3. 合法性:數據的類型、內容、大小的合法性。例如存在非ASCII字符,性別未知,年齡超過150歲等。
  4. 唯一性:數據是否存在重復記錄。因為數據通常來自不同渠道的匯總,重復的情況是常見的,行和列數據都需要是唯一的

十一、什么是數據集成

數據集成是將多個數據源合並存放在一個數據存儲中(如數據倉庫)
大數據項目中80%的工作都和數據集成有關。

Extract / 提取 :從datasource/txt/csv/Excel/等原始數據源中 Extract數據。
Transform / 轉換 :將數據預處理,字段補全、類型檢查、去除重復數據等,根據預定的條件將數據統一起來。
Load / 裝載 :將轉換完的數據存到數據倉庫中。

數據集成的兩種架構

  1. ELT
    過程為數據提取(Extract)——轉換(Transform)——加載(Load),在數據源抽取后首先進行轉換,然后將轉換的結果寫入目的地。

  2. ETL
    過程為數據提取(Extract)——加載(Load)——轉換(Transform),在數據抽取后將結果先寫入目的地,然后利用數據庫的聚合分析能力或者外部框架,如Spark來完成轉換的步驟。

商業軟件:

  • Informatica PowerCenter
  • IBM InfoSphere DataStage
  • Oracle Data Integrator
  • Microsoft SQL Server Integration Services

開源軟件:

  • Kettle
  • Talend
  • Apatar
  • Scriptella
  • DataX
  • Sqoop

ETL和ELT的區別:
ETL和ELT主要是先清洗數據還是先入庫的區別。
ETL一般使用主流框架用程序在提取的時候就將數據進行清洗,ELT則是將數據存到數據倉庫,再用sql進行數據清洗。

未來使用ELT作為數據集成架構的會越來越多,有以下好處:

  1. 使用 ELT 方法,在提取完成之后,數據加載會立即開始。一方面更省時,另一方面 ELT 允許 BI 分析人員無限制地訪問整個原始數據,為分析師提供了更大的靈活性,使之能更好地支持業務。
  2. 在 ELT 架構中,數據變換這個過程根據后續使用的情況,需要在 SQL 中進行,而不是在加載階段進行。這樣做的好處是你可以從數據源中提取數據,經過少量預處理后進行加載。這樣的架構更簡單,使分析人員更好地了解原始數據的變換過程。

十二、什么是數據變換

數據變換是數據准備的重要環節,通過數據平滑、數據聚集、數據概化和規范化等方式將數據轉換成適用於數據挖掘的形式

  1. 數據平滑。去除數據中的噪聲,將連續數據離散化

  2. 數據聚集。對數據進行匯總,例如Sum、Max、Mean等

  3. 數據概化。將數據由較低的概念抽象成較高的概念,如北上廣深圳概化為中國。

  4. 數據規范化。合屬性數據按比例縮放,將原來的數值映射到新的特定區域中。

    • min-max規范化。
      將原始數據變化到[0, 1]的空間中,公式為:新數值=(原數值-極小值) / (極大值-極小值),對應的有SciKit-Learn的preprocessing.MinMaxScaler函數
    • z-score規范化。
      可以用相同的標准比較不同規格的成績。公式為:新數值=(原數值-均值) / 標准差。對應的有SciKit-Learn的preprocessing.scale函數,求出每行每列的值減去了平均值,再除以方差的結果,使得數值都符合均值為0,方差為1的正態分布
    • 小數定標規范化。
      通過移動小數點的位置來進行規范化
  5. 屬性構造。構造出新的屬性並添加到屬性集中。

十三、什么是方差、標准差

  • 方差和標准差是測算離散趨勢最重要、最常用的指標
  • 標准差是方差的平方根
  • 一個較大的標准差,代表大部分數值和其平均值之間差異較大;一個較小的標准差,代表這些數值較接近平均值。
  • 由於方差是數據的平方,與檢測值本身相差太大,人們難以直觀的衡量,所以常用方差開根號換算回來這就是我們要說的標准差。

十三、學習的網站

  • Kaggle
    Kaggle一個進行數據發掘和預測競賽的在線平台,給數據分析師提供了非常好的數據集,同時還有Python、機器學習、數據挖掘等教程

  • 天池
    阿里出品,阿里雲旗下大數據平台


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM