1、按條件篩選session
搜索過某些關鍵詞的用戶、訪問時間在某個時間段內的用戶、年齡在某個范圍內的用戶、職業在某個范圍內的用戶、所在某個城市的用戶,發起的session。找到對應的這些用戶的session,也就是我們所說的第一步,按條件篩選session。
這個功能,就最大的作用就是靈活。也就是說,可以讓使用者,對感興趣的和關系的用戶群體,進行后續各種復雜業務邏輯的統計和分析,那么拿到的結果數據,就是只是針對特殊用戶群體的分析結果;而不是對所有用戶進行分析的泛泛的分析結果。比如說,現在某個企業高層,就是想看到用戶群體中,28~35歲的,老師職業的群體,對應的一些統計和分析的結果數據,從而輔助高管進行公司戰略上的決策制定。
2、統計出符合條件的session中,訪問時長在1s~3s、4s~6s、7s~9s、10s~30s、30s~60s、1m~3m、3m~10m、10m~30m、30m以上各個范圍內的session占比;訪問步長在1~3、4~6、7~9、10~30、30~60、60以上各個范圍內的session占比
session訪問時長,也就是說一個session對應的開始的action,到結束的action,之間的時間范圍;還有,就是訪問步長,指的是,一個session執行期間內,依次點擊過多少個頁面,比如說,一次session,維持了1分鍾,那么訪問時長就是1m,然后在這1分鍾內,點擊了10個頁面,那么session的訪問步長,就是10.
比如說,符合第一步篩選出來的session的數量大概是有1000萬個。那么里面,我們要計算出,訪問時長在1s~3s內的session的數量,並除以符合條件的總session數量(比如1000萬),比如是100萬/1000萬,那么1s~3s內的session占比就是10%。依次類推,這里說的統計,就是這個意思。
這個功能的作用,其實就是,可以讓人從全局的角度看到,符合某些條件的用戶群體,使用我們的產品的一些習慣。比如大多數人,到底是會在產品中停留多長時間,大多數人,會在一次使用產品的過程中,訪問多少個頁面。那么對於使用者來說,有一個全局和清晰的認識。
3、在符合條件的session中,按照時間比例隨機抽取1000個session
這個按照時間比例是什么意思呢?隨機抽取本身是很簡單的,但是按照時間比例,就很復雜了。比如說,這一天總共有1000萬的session。那么我現在總共要從這1000萬session中,隨機抽取出來1000個session。但是這個隨機不是那么簡單的。需要做到如下幾點要求:首先,如果這一天的12:00~13:00的session數量是100萬,那么這個小時的session占比就是1/10,那么這個小時中的100萬的session,我們就要抽取1/10 * 1000 = 100個。然后再從這個小時的100萬session中,隨機抽取出100個session。以此類推,其他小時的抽取也是這樣做。
這個功能的作用,是說,可以讓使用者,能夠對於符合條件的session,按照時間比例均勻的隨機采樣出1000個session,然后觀察每個session具體的點擊流/行為,比如先進入了首頁、然后點擊了食品品類、然后點擊了雨潤火腿腸商品、然后搜索了火腿腸罐頭的關鍵詞、接着對王中王火腿腸下了訂單、最后對訂單做了支付。
之所以要做到按時間比例隨機采用抽取,就是要做到,觀察樣本的公平性。
4、在符合條件的session中,獲取點擊、下單和支付數量排名前10的品類
什么意思呢,對於這些session,每個session可能都會對一些品類的商品進行點擊、下單和支付等等行為。那么現在就需要獲取這些session點擊、下單和支付數量排名前10的最熱門的品類。也就是說,要計算出所有這些session對各個品類的點擊、下單和支付的次數,然后按照這三個屬性進行排序,獲取前10個品類。
這個功能,很重要,就可以讓我們明白,就是符合條件的用戶,他最感興趣的商品是什么種類。這個可以讓公司里的人,清晰地了解到不同層次、不同類型的用戶的心理和喜好。
5、對於排名前10的品類,分別獲取其點擊次數排名前10的session
這個就是說,對於top10的品類,每一個都要獲取對它點擊次數排名前10的session。
這個功能,可以讓我們看到,對某個用戶群體最感興趣的品類,各個品類最感興趣最典型的用戶的session的行為。