一、什么是商業智能
BI:Business Intelegence,商業智能,基於數據倉庫,經過數據挖掘后,得到了商業價值的過程。例如利用數據預測用戶購物行為屬性商業智能
二、什么是數據倉庫
DW:Data Warehouse,數據倉庫,數據庫的升級概念,一般量更龐大,將多個數據來源的數據進行匯總、整理而來
三、什么是數據挖掘
DM:Data Mining,數據挖掘
數據挖掘流程:Knowledge Discovery in Database,也叫數據庫中的知識發現,簡稱KDD
KDD流程:輸入數據->數據預處理->數據挖掘->后處理->信息
- 數據清洗
去除重復數據、干擾數據及填充缺失值 - 數據集成
將多個數據源中的數據存放在一個統一的數據存儲中 - 數據變換
將數據轉換成適合數據挖掘的形式,比如將數值東籬一個特定的0~1的區間
數據挖掘的核心
- 分類
通過訓練集得到一個分類模型,然后用這個模型可以對其他數據進行分類
分類是已知了類別,然后看樣本屬於哪個分類 - 聚類
將數據自動聚類成幾個類別,
聚類是不知道有哪些類別,按照 樣本的屬性來進行聚類 - 預測
通過當前和歷史數據預測未來趨勢,可以更好地幫助我們識別機遇和風險 - 關聯分析
發現數據中的關聯規則,被廣泛應用於購物、事務數據分析中
數據挖掘的基本流程
- 商業理解。從商業的角度理解項目需求
- 數據理解 。嘗試收集部分數據,對數據進行探索
- 數據准備。開始收集數據,並進行清洗、集成等操作
- 模型建立。選擇和應用數據挖掘模型,並進行優化,以便得到更好的分類結果
- 模型評估。對模型進行評價,確認模型是否實現了預定的商業目標
- 上線發布。把挖掘的知識轉換成用戶的使用形式
四、數據挖掘的數學基礎
- 概率論與數據統計
- 線性代數
- 圖論
- 最優化方法
五、數據挖掘的十大算法
- 分類
- C4.5。十大算法之首,決策樹算法,特點包括:1.構造過程中剪枝 2.處理連續屬性;3.處理不完整的數據
- 朴素貝葉斯。基於概率論原理,計算未知物體出現的條件下,各個類別出現的概率,取概率最大的分類
- SVM。 超平面的分類模型
- KNN。每個樣本的分類都可以用其最接近的K個鄰居的分類代表
- Adaboost。構建分類器的提升算法,可以讓多個弱的分類器組成一個強的分類器
- CART。決策樹算法,分類樹 + 回歸樹
- 聚類
- K-Means。將物體分成K類,計算新點跟K個中心點的距離,哪個距離近,則新點歸為哪一類
- EM。最大期望算法,求參數的最大似然估計的一種方法
- 關聯分析
- Apriori。挖掘關聯規則的算法,通過挖掘頻繁項集揭示物品之間的關聯關系
- 連接分析
- PageRank。起源於論文影響力的計算方式,如果一篇文論被引入的次數越多,就代表這篇論文的影響力越強,Google將其用於計算網頁權重
六、什么是數據可視化
數據可視化主要是借助於圖形化手段,清晰有效地傳達與溝通信息,讓我們直觀了解數據分析的結果
數據可視化工具:
- python庫
- Matplotlib
- Seaborn
- Bokeh、Plotly、Pyecharts、Mapbox 和 Geoplotlib等
- 商業智能軟件
- Tableau
- PowerBI
- 可視化大屏
大屏作為一種視覺效果強、科技感強的技術,被企業老板所青睞,可以很好地展示公司的數據化能力- DataV(阿里)
- FineReport
- 前端可視化組件
可視化組件都是基於 Web 渲染的技術的,Web 渲染技術:Canvas(位圖)、SVG (失量圖)和 WebGL(3D繪圖)- Echarts
- D3
- Three.js
- AntV
七、什么是用戶畫像
簡單的說,用戶畫像就是標簽的匯總
用戶畫像是現實世界中的用戶的數學建模,將海量數據進行標簽化,來復以更精准的用戶畫像
用戶標簽能產生的業務價值
- 在獲客上,找到優勢的宣傳渠道,通過個性化的宣傳手段吸引有潛在需求的用戶
- 在粘客上,提升用戶的單價和消費頻次
- 在留客上,降低流失率,顧客流失率降低 5%,公司利潤提升 25% ~ 85%
用戶標簽4個緯度
- 基礎信息
性別、年齡、地域、收入、學歷、職業等 - 消費信息
消費習慣、購買意向、是否對促銷敏感 - 行為分析
時間段、頻次、時長、訪問路徑 - 內容分析
瀏覽的內容、停留時長、瀏覽次數,內容類型,如金融、娛樂、教育、體育、時尚、科技等
數據處理的3個階段
- 業務層
獲客預測、個性化推薦、用戶流失率、GMV趨勢預測 - 算法層
用戶興趣、用戶活躍度、產品購買偏好、用戶關聯關系、用戶滿意度、渠道使用偏好、支付使用偏好、優惠券偏好 - 數據層
用戶屬性、投訴次數、產品購買次數、渠道使用頻率、優惠券使用、訪問時長、支付渠道使用、瀏覽內容頻次
八、什么是埋點
在需要的位置采集相應的信息,進行上報。比如用戶信息、設備信息、操作行為數據
埋點一般是在需要統計數據的地方植入統計代碼。
第三方工具有:友盟、Google Analysis、Talkingdata等,一般是前端埋點的方式
九、數據采集都有哪些方式
- 開源數據源
- 爬蟲抓取
- 日志采集
- 傳感器
十、什么是數據清洗
數據清洗是去除重復數據、干擾數據及填充缺失值
數據清洗的4個關鍵點(完全合一)
- 完整性:單條數據是否存在空值,統計的字段是否完善
- 全面性:觀察某一列的全部數值,判斷列是否有問題,比如:數據定義、單位標識、數值本身。例如有的單位是克,有的是千克或磅
- 合法性:數據的類型、內容、大小的合法性。例如存在非ASCII字符,性別未知,年齡超過150歲等。
- 唯一性:數據是否存在重復記錄。因為數據通常來自不同渠道的匯總,重復的情況是常見的,行和列數據都需要是唯一的
十一、什么是數據集成
數據集成是將多個數據源合並存放在一個數據存儲中(如數據倉庫)
大數據項目中80%的工作都和數據集成有關。
Extract / 提取 :從datasource/txt/csv/Excel/等原始數據源中 Extract數據。
Transform / 轉換 :將數據預處理,字段補全、類型檢查、去除重復數據等,根據預定的條件將數據統一起來。
Load / 裝載 :將轉換完的數據存到數據倉庫中。
數據集成的兩種架構
-
ELT
過程為數據提取(Extract)——轉換(Transform)——加載(Load),在數據源抽取后首先進行轉換,然后將轉換的結果寫入目的地。 -
ETL
過程為數據提取(Extract)——加載(Load)——轉換(Transform),在數據抽取后將結果先寫入目的地,然后利用數據庫的聚合分析能力或者外部框架,如Spark來完成轉換的步驟。
商業軟件:
- Informatica PowerCenter
- IBM InfoSphere DataStage
- Oracle Data Integrator
- Microsoft SQL Server Integration Services
開源軟件:
- Kettle
- Talend
- Apatar
- Scriptella
- DataX
- Sqoop
ETL和ELT的區別:
ETL和ELT主要是先清洗數據還是先入庫的區別。
ETL一般使用主流框架用程序在提取的時候就將數據進行清洗,ELT則是將數據存到數據倉庫,再用sql進行數據清洗。
未來使用ELT作為數據集成架構的會越來越多,有以下好處:
- 使用 ELT 方法,在提取完成之后,數據加載會立即開始。一方面更省時,另一方面 ELT 允許 BI 分析人員無限制地訪問整個原始數據,為分析師提供了更大的靈活性,使之能更好地支持業務。
- 在 ELT 架構中,數據變換這個過程根據后續使用的情況,需要在 SQL 中進行,而不是在加載階段進行。這樣做的好處是你可以從數據源中提取數據,經過少量預處理后進行加載。這樣的架構更簡單,使分析人員更好地了解原始數據的變換過程。
十二、什么是數據變換
數據變換是數據准備的重要環節,通過數據平滑、數據聚集、數據概化和規范化等方式將數據轉換成適用於數據挖掘的形式
-
數據平滑。去除數據中的噪聲,將連續數據離散化
-
數據聚集。對數據進行匯總,例如Sum、Max、Mean等
-
數據概化。將數據由較低的概念抽象成較高的概念,如北上廣深圳概化為中國。
-
數據規范化。合屬性數據按比例縮放,將原來的數值映射到新的特定區域中。
- min-max規范化。
將原始數據變化到[0, 1]的空間中,公式為:新數值=(原數值-極小值) / (極大值-極小值),對應的有SciKit-Learn的preprocessing.MinMaxScaler函數 - z-score規范化。
可以用相同的標准比較不同規格的成績。公式為:新數值=(原數值-均值) / 標准差。對應的有SciKit-Learn的preprocessing.scale函數,求出每行每列的值減去了平均值,再除以方差的結果,使得數值都符合均值為0,方差為1的正態分布 - 小數定標規范化。
通過移動小數點的位置來進行規范化
- min-max規范化。
-
屬性構造。構造出新的屬性並添加到屬性集中。
十三、什么是方差、標准差
- 方差和標准差是測算離散趨勢最重要、最常用的指標
- 標准差是方差的平方根
- 一個較大的標准差,代表大部分數值和其平均值之間差異較大;一個較小的標准差,代表這些數值較接近平均值。
- 由於方差是數據的平方,與檢測值本身相差太大,人們難以直觀的衡量,所以常用方差開根號換算回來這就是我們要說的標准差。
