最近測試項目數據統計模塊,發現自己對group by函數以及聯合使用聚合函數的使用其實根本沒理解透徹。
前半部分算自己對項目遇到情況的總結,大家可忽略,直接看后半部分關於group by的使用即可!!!
前半部分:
業務邏輯背景:一個任務中,可以導入多個客戶信息(包含caseId,號碼、姓名等其他信息),客戶信息以caseId作為唯一標識,即同一個任務中caseId不能相同,但客戶手機號碼可以相同。任務可配置自動重播功能(無人接聽時,允許重播,重播次數可配置)
在進行呼叫次數統計時,其中一個規則是:同一個任務中,同一caseId的號碼多次呼叫,呼叫次數僅計算一次
數據庫:customer_profile存儲客戶信息;callout_session存儲外呼記錄相關信息,callout_task:存儲任務相關信息
字段信息:
每次電話呼叫唯一標識:session_id
任務唯一標識:task_id
場景模板id:dialog_template_id
系統呼叫號碼時間:callout_dial_time
求:某段時間內,某個場景模板中外呼電話總次數
錯誤sql語句:
select count(case_id) from
(select distinct(cp.case_id),ct.task_id,cs.session_id from callout_session cs
join callout_task ct on cs.task_id=ct.task_id
join customer_profile cp on cs.user_id = cp.user_id
where ct.dialog_template_id='1-1016-108'
and callout_dial_time between '2019-03-16 00:00:00' and '2019-04-02 23:59:59'
group by case_id)A;
該sql語句為雙重嵌套查詢,這里僅分析內層查詢,錯誤原因,在於group by case_id,將所有外呼記錄中case_id相同的記錄都合並成了一行,不符合規則“同一個任務中,同一caseId的號碼多次呼叫,呼叫次數僅計算一次”
而正確語句中group by case_id,task_id即為將同時滿足case_id值相同和task_id值相同的數據合並成一行,符合規則“同一個任務中,同一caseId的號碼多次呼叫,呼叫次數僅計算一次”
正確sql語句:
select count(session_id) from
(select ct.task_id,cs.session_id,cp.case_id from callout_session cs
join callout_task ct on cs.task_id=ct.task_id
join customer_profile cp on cs.user_id = cp.user_id
where ct.dialog_template_id='1-1016-108'
and callout_dial_time between '2019-03-16 00:00:00' and '2019-04-02 23:59:59'
group by task_id,case_id)A
后半部分:
1、group by:后接字段名,根據字段對數據進行分組
SQL語句:select task_id,session_id,customer_case_id,callout_connect_status from callout_session where callout_dial_time between '2019-04-01 00:00:000' and '2019-04-03 23:59:59' group by task_id,session_id
表1
1.1、單獨使用group by 列名,不與聚合函數聯合使用
group by后面跟一個列名task_id,起到了去重的作用,將task_id值相同的行合並成一行顯示
表1.1-1
group by后面跟兩個列名task_id、customer_id:同樣是去重作用,將同時滿足task_id值相同、customer_id值相同的行合並成一行
注:這里不是合並task_id值與customer_id值相同的行,博主本人以前在這里就理解錯了
表1.1-2
1.2、group by與聚合函數使用
sql語句:select task_id,count(task_id),session_id,customer_case_id,callout_connect_status from callout_session where callout_dial_time between '2019-04-01 9-04-01 00:00:00' and '2019-04-03 23:59:59' group by task_id order by task_id,customer_case_id;
count(task_id) 這里統計了task_id值相同的行數量,與表1數據進行對比
2、order by:對查詢結果進行排序,后面跟字段名
order by 字段名 desc:降序排列
order by 字段名 asc:升序排列