昨天聽的一場報告,感覺不錯,整理一下。
(電腦死機,本來都快整理好了,哭)
1.什么是精細化營銷
精細化營銷就是恰當地、貼切根據客戶的差異將客戶分群,采取不同的營銷策略。比較有名的有天貓的千人千面,亞馬遜的圖書推薦系統……推薦《大數據時代》,挺不錯的科普書。
2.什么是客戶分群
客戶分群的解讀三個角度
-
客戶需求:需求決定市場
-
客戶價值:客戶有大客戶、小客戶、新客戶、老客戶等划分,他們對企業的利益價值不等。
-
企業資源和能力:適合企業規模的措施
以互聯網電商為例,可以關注以下數據:
-
客戶人口統計學特征
-
客戶接觸企業的渠道(通過什么渠道?)
-
客戶購買的頻次
-
客戶購買的金額
-
場景不一樣,收集的數據不同
-
客戶作為某品牌顧客的時間周期
-
購買某種品牌的頻數
-
購買該產品的平均貢獻
-
客戶購買該品牌的概率
-
R(Recency)最近一次的消費
F(Frequency)消費頻率
M(Monetary)消費資源
要解決的問題不同,收集的數據不同,解決方案也不同。
3.精細化營銷的數據處理流程
商業理解---數據理解---數據預處理----構建模型---模型評估---模型發布(反復的過程)機器學習和人的學習很像。
4、機器學習算法
主要分為:有監督學習、無監督學習、半監督學習、強化學習
1、有監督學習
關鍵詞:分類學習、預測模型
第一次,小孩指着狗說:“媽媽媽媽這是貓” 媽媽說:“不對,這是狗”;
第二次,小孩指着狗說:“媽媽媽媽這是豬” 媽媽說:“不對,這是狗”;
第一次,小孩指着狗說:“媽媽媽媽這是狗” 媽媽說:“對,這是狗”;
…………
媽媽知道正確答案,可以給小孩糾正,小孩在不斷糾正中知道了什么是狗,這種模式就是有監督學習。
特點是——結論是已知的,已知樣本的結果,對算法模型進行訓練。
2、無監督學習
關鍵詞:關聯模型、聚類分析
來到新的班級,大家都很陌生,一段時間之后就三五成群了,整個過程是沒有人干預的,自動形成了一個個小群體。每個小群體的成員必定有相似之處,人以群分么。這就是無監督學習。沒有訓練之前,我們無法確定結果會分為幾組,哪些會成為一組。
聚類:無監督學習的一種,是將一組對象划分成簇cluster,是簇類內的對象相似度盡量大,簇間盡量小。客戶分群用的就是聚類。
3、聚類的簡單算法——KMeans
KMeans算法:,
第一步:設置分類K值
第二步:設置初始質心簇的位置
第三步:不斷迭代,計算距離,尋找新分類簇的簇心點(這個距離歐者馬式)
第三步:收斂完成聚類(收斂標准,比如0.001)
過程的第三步有數學公式。學大數據不是學算法也不是學數學,只需了解算法的思路和數學公式的含義即可,不必細究。
有人造車,有人開車,大數據是開車。車自然有算法工程師和數學家造。
優點:
(1)、是解決聚類問題的一種經典算法,簡單、快速(誰近跟誰,邏輯很簡單)
(2)、對處理大數據集,該算法保持可伸縮性和高效性
(3)、當簇接近高斯分布時,它的效果較好。
缺點:
1)、在簇的平均值可被定義的情況下才能使用,可能不適用於某些應用;
(2)、在 K-means 算法中 K 是事先給定的,這個 K 值的選定是非常難以估計的。很多時候,事先並不知道給定的數據集應該分成多少個類別才最合適;
(3)、在 K-means 算法中,首先需要根據初始聚類中心來確定一個初始划分,然后對初始划分進行優化。這個初始聚類中心的選擇對聚類結果有較大的影響,一旦初始值選擇的不好,可能無法得到有效的聚類結果;
(4)、該算法需要不斷地進行樣本分類調整,不斷地計算調整后的新的聚類中心,因此當數據量非常大時,算法的時間開銷是非常大的;
(5)、若簇中含有異常點,將導致均值偏離嚴重(即:對噪聲和孤立點數據敏感);
5、大數據學習方法
學習是,遵循這個順序:“是什么、怎么用,用的更好。”
技術的落點是業務,為了解決問題采取學技術。
技術和應用結合,由面到點的提升。用到什么學什么,做的事開發,做的不是語言,不要受限於語言。
編程語言、工具沒有優劣之分,取決於使用場景。合適的才是最好的。
java一定要學好,必須學好一門靜態語言才能在IT行業走得更遠。
當下python比較火,但Java在大數據中的地位還是無可撼動,python腳本語言簡單高效,但太輕量級了,對大數據處理中的高並發、多線程等優化還是不行,它更主要的作用是膠水。
當下流行的Hadoop生態系統,幾乎全是java寫的;Spark雖然用Scala開發,但Scala是運行在JVM中的;
Flink也用java。學習大數據,更像是學習java框架。
不斷清空自己,空杯心態,不斷學習才能不被淘汰。大數據發展很快,各種框架會越來越多。
初學者應該盡快把握整個業務流程,先着重於應用層,業務處理流程熟悉后再去深入研究底層,考慮優化等問題。
6、其他
有些東西不是不能做,而是沒必要做:
語音識別,技術上難度並不大。但是以目前的算法,即使大公司資源充足,訓練模型也需要上萬小時(對模型訓練時長有了點認知),這還是基於模型足夠成熟的情況下。所以沒必要自己去做,調別人做好的就行。
然后阿里雲平台,以前只用過服務器。發現它提供的算法平台啊、雲數據庫啊、各種場景的解決方案啊……大為驚嘆
大數據時代,大數據時代……似乎對這五個字多了一些感悟和思考。生態體系、智能時代、解決方案……一扇新的大門。
循着阿里雲這條線,拓展自己的知識面吧。
