1⃣️首先整理一下大廠中的大數據開發工作內容主要是什么:
公司內部的人員,主要是產品和運營,他們會想知道推出了某一活動之后這個活動的運營狀況或者某個按鈕按下之后的點擊率等信息,而我們要做的就是將運營提出來的需求轉化為字段,把數據給運營提取出來。
關於埋點數據:
- 數據埋點是數據產品經理、數據運營以及數據分析師,基於業務需求(例如:CPC點擊付費廣告中統計每一個廣告位的點擊次數),產品需求(例如:推薦系統中推薦商品的曝光次數以及點擊的人數)對用戶行為的每一個事件對應的
- 位置進行開發埋點,並通過SDK上報埋點的數據結果,記錄數據匯總后進行分析,推動產品優化或指導運營。這里比較明顯的存在就是埋點數據平台!
- 初級的數據埋點:在產品流程關鍵部位植相關統計代碼,用來追蹤每次用戶的行為,統計關鍵流程的使用程度。
- 中級的數據埋點:在產品中植入多段代碼追蹤用戶連續行為,建立用戶模型來具體化用戶在使用產品中的操作行為。
- 高級的數據埋點:與研發及數據分析師團隊合作,通過數據埋點還原出用戶畫像及用戶行為,建立數據分析后台,通過數據分析、優化產品。
2⃣️好的,其實上面都不是人話,總結下來就是分析或者整理下來的用戶操作軌跡數據逐漸完整從而為更完備的結果進行服務。那么還有一個問題,什么是產品上線?PV/UV是什么?主要流程頁面之間的轉化率?
PV的英文來是Page View的縮寫,意思是“頁面訪問量”。用戶每次刷新被計算源一次pv。 UV的全稱是Unique Visitor,意思是“獨立訪問者”。訪問您網站的一台電腦客戶端為一個訪客。24小時之內,同一地址,多次訪問,只算一次。PV/UV 就是平均一個獨立訪問者所dao瀏覽的頁面訪問量。
轉化率:不說概念直接上例子:10名買家看到某個搜索推廣的結果,其中5名買家點擊了某一推廣結果並被跳轉到目標URL上,之后,其中2名買家有了后續轉化的行為。那么,這條推廣結果的轉化率就是(2/5)×100%=40%。 轉化率是網站最終能否盈利的核心,提升網站轉化率是網站綜合運營實力的結果。
3⃣️那么產品的第一次埋點和第二次埋點分別是在哪些環節發生的?
在產品的第一次上線時通常會埋以下幾個點:PC&Web端會統計產品的PV/UV,注冊量,主要流程頁面之間的轉化率、日活人數等等。而移動端還要統計產品在Appstore,各大安卓市場的下載量。第二次埋點會根據產品目標及上線后的問題進行分析。比如,當你發現產品首頁的UV很高,注冊量卻非常低,你就需要分析出用戶在首頁的行為,如30%的用戶退出了產品,60%的用戶進入了注冊頁,但只有1%的用戶注冊了該產品。這也就意味着,注冊流程可能出現了問題,需要進一步細化注冊各個流程,增加數據埋點,分析各個流程之間的轉化率,找到產品出現的問題並解決。
4⃣️產品的基本數據指標
新增:新用戶增加的數量和速度。如:日新增、月新增等。
活躍:有多少人正在使用產品。如日活躍(DAU)、月活躍(MAU)等。用戶的活躍數越多,越有可能為產品帶來價值。
留存率:用戶會在多長時間內使用產品。如:次日留存率、周留存率等。
傳播:平均每位老用戶會帶來幾位新用戶。
流失率:一段時間內流失的用戶,占這段時間內活躍用戶數的比例。
5⃣️主要的埋點事件分類
點擊事件
點擊事件,用戶點擊按鈕即算點擊事件,不管點擊后有無結果;如下圖紅框標注所示,點擊一次記一次。
曝光事件
成功打開一次頁面記一次,刷新頁面一次記一次,加載下一頁新頁,加載一次記一次。home鍵切換到后台再進入頁面,曝光事件不記;
頁面停留時間事件
表示一個用戶在X頁面的停留時長記為停留時長。例如:小明9:00訪問了X網站首頁,此時分析工具則開始為小明這個訪問者記錄1個Session(會話)。接着9:01小明又瀏覽了另外一個頁面列表頁,然后離開了網站(離開網站可以是通過關閉瀏覽器,或在地址欄鍵入一個不同的網址,或是點擊了你網站上鏈接到其他網站的鏈接……)為了簡單,我們把這個過程當做一個Session。
6⃣️再來說幾個產品easyfetch是讓運營快速滴獲取數據、easydesign實際上就是生成表,也就是類似埋點數據表,如下圖所示。那么easydesign的用處實際上就是讓開發更好滴了解運營的需求,也就是埋點規范化的一種表現,雖然其實埋點規范化是開發做的,也就是讓數據開發的人更清晰的了解客戶需求。網易取數實際上就是將easyfetch和easydesign合並起來的功能,既能夠將數據整合起來也能夠對數據進行顯示,也就是通過拖拽獲取數據以及后面的數據可視化。
有關埋點規范方面:
首先先從jira中導入任務需求,進行埋點數據管理,埋點數據管理的名稱要求是
本文參考文獻:https://www.jianshu.com/p/bcc2c110ff92
其中page和subpage或者和其他之間可以用-進行連接,然后沒有就寫無
說明一下subpage就是有tab鍵的地方,module就是類似一個橫向的模塊,比如歌單模塊(有很多歌單),然后歌單內還有對應的位置來標定不同的歌單,然后是ID也就是我們要處理的一個控件名,最后說明是什么操作,可能的操作如下:
OLAP數據提取
第一個需求:增加兩列
直播方面主要其實只有用戶表和主播表兩個表,實際上這樣的表是從萌嗎上面dump下來的,而這個表其實對應的是一個調度任務,也就是對應的SQL文件夾,一個任務有很多個表對應着不同的SQL語言。
數據倉庫
數據倉庫相關的術語
https://zhuanlan.zhihu.com/p/109339768
https://www.douban.com/group/topic/50841728/
CDM層主要功能
CDM層又細分為DWD層和DWS層,分別是明細寬表層和公共匯總數據層,采取維度模型方法基礎,更多采用一些維度退化手法,減少事實表和維度表的關聯,容易維度到事實表強化明細事實表的易用性;同時在匯總數據層,加強指標的維度退化,采取更多寬表化的手段構建公共指標數據層,提升公共指標的復用性,減少重復的加工。
ADS層主要功能
- 個性化指標加工:不公用性;復雜性(指數型、比值型、排名型指標)
- 基於應用的數據組裝:大寬表集市、橫表轉縱表、趨勢指標串
其模型架構圖如下,阿里通過構建全域的公共層數據,極大的控制了數據規模的增長趨勢,同時在整體的數據研發效率,成本節約、性能改進方面都有不錯的結果。