Spark項目之電商用戶行為分析大數據平台之(七)數據調研--基本數據結構介紹


一、user_visit_action(Hive表)

1.1 表的結構

 

date:日期,代表這個用戶點擊行為是在哪一天發生的
user_id:代表這個點擊行為是哪一個用戶執行的
session_id :唯一標識了某個用戶的一個訪問session
page_id :點擊了某些商品/品類,也可能是搜索了某個關鍵詞,然后進入了某個頁面,頁面的id
action_time :這個點擊行為發生的時間點
search_keyword :如果用戶執行的是一個搜索行為,比如說在網站/app中,搜索了某個關鍵詞,然后會跳轉到商品列表頁面;搜索的關鍵詞
click_category_id :可能是在網站首頁,點擊了某個品類(美食、電子設備、電腦)
click_product_id :可能是在網站首頁,或者是在商品列表頁,點擊了某個商品(比如呷哺呷哺火鍋XX路店3人套餐、iphone 6s)
order_category_ids :代表了可能將某些商品加入了購物車,然后一次性對購物車中的商品下了一個訂單,這就代表了某次下單的行為中,有哪些
商品品類,可能有6個商品,但是就對應了2個品類,比如有3根火腿腸(食品品類),3個電池(日用品品類)
order_product_ids :某次下單,具體對哪些商品下的訂單
pay_category_ids :代表的是,對某個訂單,或者某幾個訂單,進行了一次支付的行為,對應了哪些品類
pay_product_ids:代表的,支付行為下,對應的哪些具體的商品

1.2 表的說明

user_visit_action表,其實就是放,比如說網站,或者是app,每天的點擊流的數據。可以理解為,用戶對網站/app每點擊一下,就會代表在這個表里面的一條數據。

二、user_info(Hive表)

2.1 表的結構

user_id:其實就是每一個用戶的唯一標識,通常是自增長的Long類型,BigInt類型
username:是每個用戶的登錄名
name:每個用戶自己的昵稱、或者是真實姓名
age:用戶的年齡
professional:用戶的職業
city:用戶所在的城市

2.2 表的說明

user_info表,實際上,就是一張最普通的用戶基礎信息表;這張表里面,其實就是放置了網站/app所有的注冊用戶的信息。那么我們這里也是對用戶信息表,進行了一定程度的簡化。比如略去了手機號等這種數據。因為我們這個項目里不需要使用到某些數據。那么我們就保留一些最重要的數據,即可。

三、task(MySQL表)

3.1 表的結構

task_id:表的主鍵
task_name:任務名稱
create_time:創建時間
start_time:開始運行的時間
finish_time:結束運行的時間
task_type:任務類型,就是說,在一套大數據平台中,肯定會有各種不同類型的統計分析任務,比如說用戶訪問session分析任務,頁面單跳轉化率統計任務;所以這個字段就標識了每個任務的類型
task_status:任務狀態,任務對應的就是一次Spark作業的運行,這里就標識了,Spark作業是新建,還沒運行,還是正在運行,還是已經運行完畢
task_param:最最重要,用來使用JSON的格式,來封裝用戶提交的任務對應的特殊的篩選參數

3.2 表的說明

task表,其實是用來保存平台的使用者,通過J2EE系統,提交的基於特定篩選參數的分析任務,的信息,就會通過J2EE系統保存到task表中來。之所以使用MySQL表,是因為J2EE系統是要實現快速的實時插入和查詢的。

四、工作流程

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM