數據建模及常見分類算法


數據建模指的是對現實世界各類數據的抽象組織,建立一個適合的模型對數據進行處理。

建模數據的抽取,清洗和加工以及建模算法的訓練和優化會涉及大量的計算機語言和技術。比如:數據查詢語言SQL;數據環境Hadoop和Spark;數據操作系統Linux; 數據分析軟件R、Python、SAS、Matlab等。

特征工程涉及到統計/數學/信息論/計量等學科的基本概念。比如:變量的均值;分位數;峰度;譜;信息熵;cosi;衰退速率以及馬氏距離等。 

建模階段涉及多種量化模型,比如:統計模型;計量模型;機器學習模型;復雜網絡等。比較常見的模型有:回歸分析模型;隨機森林;時間序列;神經網絡;SVM等。

想要在實際的項目中自如的運用這些模型算法,不僅僅需要了解基本的數學原理,還需要深入掌握對應的計算機語言實現。至少要會在主流的分析軟件中調用算法包,更高階的要求是能自己實現算法的編寫和精進。只有這樣才能相對正確地設計並依據實際數據結構優化算法,得到各方面表現都相對優異的模型。

比如特征工程中缺失值處理、特征構建、變換等等,取決於模型方法、數據、業務目標等。除了基於之前提到過的量化指標構造的特征,最后對模型表現貢獻最多的特征往往是那些構造邏輯和業務邏輯掛鈎非常緊密的特征。

這里舉兩個例子來說明。

例1:異常的交易風險,通常表明客戶存在違約或者欺詐的風險,那么如何去構造特征來描述異常交易風險呢?

可以是統計指標方差、變異度、數學指標馬氏距離;

也可以是業務邏輯“過去3天的交易金額相較於歷史水平漲幅大於100%”。

后者顯然不專屬於任何一門學科,它來自於對業務的理解和消化。
因為建模是一方面,模型能夠實施生產是另一方面。結構復雜和特征量大的模型往往意味着背后需要大量的計算資源,人力資源和時間資源支持。模型的現有表現和未來可能的衰減速度值不值得耗費大量人力物力去生產部署,部署后模型帶來的效益是否能在長期內沖銷成本也是建模人員需要去考慮的事情。

在數據分析與挖掘中,我們通常需要根據一些數據建立起特定的模型,然后處理。模型的建立需要依賴於算法,一般,常見的算法有分類(有明確類別)、聚類(無明確類別)、關聯、回歸等。

數據分類實現過程
數據分類主要處理現實生活中的分類問題,一般處理思路如下:

(1)首先明確需求並對數據進行觀察;

(2)其次,確定算法;

(3)確定步驟;

(4)編程實現。

3.常見的分類算法
(1)KNN算法(k-近鄰算法):實現簡單的分類(驗證碼識別)

KNN算法的實現步驟:處理數據 -> 數據向量化 -> 計算歐幾里得距離 -> 根據距離進行分類(排序)

這兒還講了sklearn神經網絡模塊的下載

回歸算法:擬合一條線

線性回歸、邏輯回歸、非線性回歸、主成分回歸

https://www.cnblogs.com/sparkwen/p/3441197.html

邏輯回歸:概率p、1-p,求比值,取對數,用e表示出p的函數,即是邏輯函數

(3)決策樹

(4)人工神經網絡

(5)支持向量機


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM