第一章
1.1
1.1.2數據化運營是什么?
是指通過數據化的工具和技術,方法,對運營過程中的各個環節進行科學分析引導和應用,從而達到優化運營效果和效率,降低成本,提高效率的目的。
1.數據化運營的意義:
提高運營決策效率
提高運營決策正確性
優化運營執行過程
提升投資回報
2.數據化運營的2種方式
輔助決策數據化運營
輔助決策式數據化運營即運營的決策支持,它是以決策主題為中心,借助計算機相關技術輔助決策者通過數據、模型、知識等進行業務決策,起到幫助、協助和輔助決策者的目的。例如:通過為決策者提供促銷商品銷量,來為企業促銷活動提供有關訂貨、銷售等方面的支持。
數據驅動式數據化運營
數據驅動式數據化運營是指整個運營運作流程以最大化結果為目標,以關鍵數據為觸發和優化方式,將運營業務的工作流程、邏輯、技巧封裝為特定應用,借助計算機技術並結合企業內部流程和機制形成一體化的數據化工作流程。例如:個性化推薦是一種數據驅動數據化運營方式。
兩種數據化運營的差異點
輔助決策式數據化運營和數據驅動式數據化運營是兩個層次的數據應用,數據驅動相對於輔助決策的實現難度更高、數據價值體現更大。
輔助決策為業務決策方服務,整個過程都由運營人員掌控,數據是輔助角色。
數據驅動的過程由數據掌控,數據是主體,實現該過程需要IT、自動化系統、算法等支持,數據驅動具有自主導向性、自我驅動性和效果導向性的特征。
注意 由於數據和流程本身會存在缺陷以及運營業務通常都有強制性規則的需求,因此即使在數據驅動數據化運營過程中也會加入人工干預因素。但即使如此,數據作為數據驅動的核心不變,數據即決策主體本身。
3.數據化運營的工作流程
第一階段:數據需求溝通
需求產生
由運營部門產生的某些數據化運營需求,例如預測商品銷量、找到異常訂單、確定營銷目標人群名單等。
需求溝通
針對運營部門提出的需求進行面對面溝通和交流,主要溝通兩方面內容:
一是業務需求溝通,包括需求產生的背景、要解決的問題、預期達到的效果等;
二是數據現狀溝通,包括數據存儲環境、主要字段、數據字典、數據量、更新頻率、數據周期等,如果沒有數據則需要制定數據采集規則並開始采集數據,該過程中可能需要IT部門的協助;
三是數據與分析的關聯性溝通,根據與運營人員的溝通,了解業務背景下哪些是常見的帶有業務背景的數據、不同場景會導致數據如何變化、分析中會涉及到哪些關鍵字段或場景數據等,業務人員豐富的經驗會幫助數據工作者少走很多坑。
第二階段:數據分析建模
獲取數據
要獲取數據化運營分析所需的數據,需要經過特定授權從數據庫或文件中得到數據。
數據預處理
在該過程中對數據進行質量檢驗、樣本均衡、分類匯總、合並數據集、刪除重復項、數據分區、排序、數據離散化、數據標准化、過濾變量、轉置、查找轉換、數據脫敏、數據轉換、抽樣、異常值和缺失值處理等。
數據分析建模
運用多種數據分析和挖掘方法,對數據進行分析建模。方法包括統計分析、OLAP分析、回歸、聚類、分類、關聯、異常檢測、時間序列、協同過濾、主題模型、路徑分析、漏斗分析等。
數據結論輸出
數據結論的輸出有多種方式,常見的方式是數據分析或挖掘建模報告,另外還包括Excel統計結果、數據API輸出、數據結果返回數據庫、數據結果直接集成到應用程序中進行自動化運營用用(例如短信營銷)。
第三階段:數據落地應用
數據結論溝通
對於輸出的形式為報告、Excel統計結果等方式的內容,通常都需要與運營對象進行深入溝通,主要溝通的內容是將通過數據得到的結論和結果與業務進行溝通,通過溝通來初步驗證結論的正確性、可靠性和可行性,並對結果進行修正。如果沒有可行性,那么需要返回第二階段重新開始數據分析建模流程。
數據部署應用
經過溝通具有可行性的數據結論,可直接應用到運營執行環節。例如,將預測結果作為下一月份的KPI目標,將選擇出來的用戶作為重點客戶進行二次營銷。
后續效果監測和反饋
大多數的數據化運營分析都不是“一次性”的,尤其當已經進行部署應用之后,需要對之前的數據結論在實踐中的效果做二次驗證,若有必要則需要進行結論的再次修正和意見反饋。
注意:很多人認為數據化運營工作應該從數據產生之后開始,這是錯誤的觀念,原因在於數據化運營工作的起始是需求產生,而需求的產生跟數據的產生往往沒有必然關系。
1.1.3 Python用於數據化運營
Python可以將數據化運營過程中的來源於企業內外部的海量、多類型、異構、多數據源的數據有效整合到一起,提供豐富的集成、開發、分析、建模和部署應用。
Python高效的開發效率能幫助數據化運營在最短的時間內進行概念驗證,並提供科學的預測結果,為數據化運營的快速和准確提供基礎。
Python可以將數據工作流程和IT工作流程無縫對接,有利於實現數據工作跟運營工作的融合,這也是數據驅動式數據化運營的工作方法,有利於真正實現數字化、智能化的運營工作
1.2 工具和組件
numpy:可以高效處理數據,提供數組支持,很多模塊都依賴,
pandas:用於進行數據探索和數據分析
matplotlib :作圖模塊,解決可視化問題
scipy 主要進行數值計算,同時支持矩陣運算,並提供了很多高等數據處理功能,比如積分,傅里葉變換,微積分方程求解等
statsmodels 這個模塊主要用於文本挖掘
sklearn(scikit-learn),keras:前者機器學習,后者深度學習
統計分析:Statsmodels
中文處理:結巴分詞
文本挖掘:Gensim
爬蟲和解析:requests、Beautiful Soup、xml
圖像處理:OpenCV和PIL
數據讀取:xlrd、pymongo、mysql.connector
數據預處理:imblearn
展示美化類:graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
1.3 機器學習框架 TensorFlow
Tesseract-OCR(光學字符識別) : https://sourceforge.net/projects/tesseract-ocr-alt/files/下載名為“tesseract-ocr-setup-3.02.02.exe”的安裝包。
案例:
chapter1
......
