工作記錄之 oracle去重的三個方法


工作中經常會使用sql分組,總結三個方法:

1、distinct

在 SQL 中,關鍵字 distinct 用於返回唯一不同的值。其語法格式為:

SELECT DISTINCT 列名稱 FROM 表名稱

假設有一個表“CESHIDEMO”,包含兩個字段,分別 NAME 和 AGE,具體格式如下:

CESHIDEMO

觀察以上的表,咱們會發現:擁有相同 NAME 的記錄有兩條,擁有相同 AGE 的記錄有三條。如果咱們運行下面這條 SQL 語句,

/**
* 其中 PPPRDER 為 Schema 的名字,即表 CESHIDEMO 在 PPPRDER 中
*/
 
select name from PPPRDER.CESHIDEMO

將會得到如下結果:

name

觀察該結果,咱們會發現在以上的四條記錄中,包含兩條 NAME 值相同的記錄,即第 2 條記錄和第 3 條記錄的值都為“gavin”。那么,如果咱們想讓擁有相同 NAME 的記錄只顯示一條該如何實現呢?這時,就需要用到 distinct 關鍵字啦!接下來,運行如下 SQL 語句,

select distinct name from PPPRDER.CESHIDEMO

將會得到如下結果:

distinct

觀察該結果,顯然咱們的要求得到實現啦!但是,咱們不禁會想到,如果將 distinct 關鍵字同時作用在兩個字段上將會產生什么效果呢?既然想到了,咱們就試試唄,運行如下 SQL 語句,

select distinct name, age from PPPRDER.CESHIDEMO

得到的結果如下所示:

nameandage

觀察該結果,哎呀,貌似沒有作用啊?她將全部的記錄都顯示出來了啊!其中 NAME 值相同的記錄有兩條,AGE 值相同的記錄有三條,完全沒有變化啊!但事實上,結果就應該是這樣的。因為當 distinct 作用在多個字段的時候,她只會將所有字段值都相同的記錄“去重”掉,顯然咱們“可憐”的四條記錄並不滿足該條件,因此 distinct 會認為上面四條記錄並不相同。空口無憑,接下來,咱們再向表“CESHIDEMO”中添加一條完全相同的記錄,驗證一下即可。添加一條記錄后的表如下所示:

添加一條記錄

再運行如下的 SQL 語句,

select distinct name, age from PPPRDER.CESHIDEMO

得到的結果如下所示:

nameandage

觀察該結果,完美的驗證了咱們上面的結論。

此外,有一點需要大家特別注意,即:關鍵字 distinct 只能放在 SQL 語句中所有字段的最前面才能起作用,如果放錯位置,SQL 不會報錯,但也不會起到任何效果。

2、row_number() over()

在 oracle數據庫中,為咱們提供了一個函數 row_number() 用於給數據庫表中的記錄進行標號,在使用的時候,其后還跟着一個函數 over(),而函數 over() 的作用是將表中的記錄進行分組和排序。兩者使用的語法為:

ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUMN2)

意為:將表中的記錄按字段 COLUMN1進行分組,按字段 COLUMN2 進行排序,其中

PARTITION BY:表示分組ORDER BY:表示排序

接下來,咱們還用表“CESHIDEMO”中的數據進行測試。首先,給出沒有使用 row_number() over() 函數時查詢的結果,如下所示:

添加一條記錄

然后,運行如下 SQL 語句,

select PPPRDER.CESHIDEMO.*, row_number() over(partition by age order by name desc) from PPPRDER.CESHIDEMO

得到的結果如下所示:

函數

從上面的結果可以看出,其在原表的基礎上,多了一列標有數字排序的列。那么反過來分析咱們運行的 SQL 語句,發現其確實按字段 AGE 的值進行分組了,也按字段 NAME 的值進行排序啦!因此,函數的功能得到了驗證。

接下來,咱們就研究如何用 row_number() over() 函數實現“去重”的功能。通過觀察上面的結果,咱們可以發現,如果以 NAME 分組,以 AGE 排序,然后再取每組的第一個記錄或許就可以實現“去重”的功能啊!那么試試看,運行如下 SQL 語句,

/*
* 其中 rn 表示最后添加的那一列
*/
 
select * from
(select PPPRDER.CESHIDEMO.*, row_number() over(partition by name order by age desc) rn from PPPRDER.CESHIDEMO)
where rn = 1

運行后,得到的結果如下所示:

rn

 

3、group by

 

GROUP BY語句用來與聚合函數(aggregate functions such as COUNT, SUM, AVG, MIN, or MAX.)聯合使用來得到一個或多個列的結果集。

語法如下:

SELECT column1, column2, ... column_n, aggregate_function (expression)            

FROM tables            

WHERE predicates            

GROUP BY column1, column2, ... column_n;

 

舉例

比如說我們有一個學生表格(student),包含學號(id),課程(course),分數(score)等等多個列,我們想通過查詢得到每個學生選了幾門課程,此時我們就可以聯合使用COUNT函數與GROUP BY語句來得到這一結果

SELECT id, COUNT(course) as numcourse

FROM student

GROUP BY id

因為我們是使用學號來進行分組的,這樣COUNT函數就是在以學號分組的前提下來實現的,通過COUNT(course)就可以計算每一個學號對應的課程數。

 

注意

因為聚合函數通過作用於一組數據而只返回一個單個值,因此,在SELECT語句中出現的元素要么為一個聚合函數的輸入值,要么為GROUP BY語句的參數,否則會出錯。

例如,對於上面提到的表格,我們做一個這樣的查詢:

SELECT id, COUNT(course) as numcourse, score

FROM student

GROUP BY id

此時查詢便會出錯,錯誤提示如下:

Column ‘student.score' is invalid in the select list because it is not contained in either an aggregate function or the GROUP BY clause.

出現以上錯誤的原因是因為一個學生id對應多個分數,如果我們簡單的在SELECT語句中寫上score,則無法判斷應該輸出哪一個分數。如果想用score作為select語句的參數可以將它用作一個聚合函數的輸入值,如下例,我們可以得到每個學生所選的課程門數以及每個學生的平均分數:

SELECT id, COUNT(course) as numcourse, AVG(score) as avgscore

FROM student

GROUP BY id

HAVING

HAVING語句通常與GROUP BY語句聯合使用,用來過濾由GROUP BY語句返回的記錄集。

HAVING語句的存在彌補了WHERE關鍵字不能與聚合函數聯合使用的不足。

語法:

SELECT column1, column2, ... column_n, aggregate_function (expression)
FROM tables
WHERE predicates
GROUP BY column1, column2, ... column_n
HAVING condition1 ... condition_n;

同樣使用本文中的學生表格,如果想查詢平均分高於80分的學生記錄可以這樣寫:

SELECT id, COUNT(course) as numcourse, AVG(score) as avgscore

FROM student

GROUP BY id

HAVING AVG(score)>=80;

在這里,如果用WHERE代替HAVING就會出錯

 

select t.a , min(t.b) , t.c  from table t 

group by  t.a,t.c


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM