工作記錄之 oracle去重的三個方法

本文轉載自查看原文 2018-08-21 10:12 47546

工作中經常會使用sql分組，總結三個方法：

1、distinct

在 SQL 中，關鍵字 distinct 用於返回唯一不同的值。其語法格式為：

SELECT DISTINCT 列名稱 FROM 表名稱

假設有一個表“CESHIDEMO”，包含兩個字段，分別 NAME 和 AGE，具體格式如下：

CESHIDEMO

觀察以上的表，咱們會發現：擁有相同 NAME 的記錄有兩條，擁有相同 AGE 的記錄有三條。如果咱們運行下面這條 SQL 語句，

/**
* 其中 PPPRDER 為 Schema 的名字，即表 CESHIDEMO 在 PPPRDER 中
*/
 
select name from PPPRDER.CESHIDEMO

將會得到如下結果：

name

觀察該結果，咱們會發現在以上的四條記錄中，包含兩條 NAME 值相同的記錄，即第 2 條記錄和第 3 條記錄的值都為“gavin”。那么，如果咱們想讓擁有相同 NAME 的記錄只顯示一條該如何實現呢？這時，就需要用到 distinct 關鍵字啦！接下來，運行如下 SQL 語句，

select distinct name from PPPRDER.CESHIDEMO

將會得到如下結果：

distinct

觀察該結果，顯然咱們的要求得到實現啦！但是，咱們不禁會想到，如果將 distinct 關鍵字同時作用在兩個字段上將會產生什么效果呢？既然想到了，咱們就試試唄，運行如下 SQL 語句，

select distinct name, age from PPPRDER.CESHIDEMO

得到的結果如下所示：

nameandage

觀察該結果，哎呀，貌似沒有作用啊？她將全部的記錄都顯示出來了啊！其中 NAME 值相同的記錄有兩條，AGE 值相同的記錄有三條，完全沒有變化啊！但事實上，結果就應該是這樣的。因為當 distinct 作用在多個字段的時候，她只會將所有字段值都相同的記錄“去重”掉，顯然咱們“可憐”的四條記錄並不滿足該條件，因此 distinct 會認為上面四條記錄並不相同。空口無憑，接下來，咱們再向表“CESHIDEMO”中添加一條完全相同的記錄，驗證一下即可。添加一條記錄后的表如下所示：

添加一條記錄

再運行如下的 SQL 語句，

select distinct name, age from PPPRDER.CESHIDEMO

得到的結果如下所示：

nameandage

觀察該結果，完美的驗證了咱們上面的結論。

此外，有一點需要大家特別注意，即：關鍵字 distinct 只能放在 SQL 語句中所有字段的最前面才能起作用，如果放錯位置，SQL 不會報錯，但也不會起到任何效果。

2、row_number() over()

在 oracle數據庫中，為咱們提供了一個函數 row_number() 用於給數據庫表中的記錄進行標號，在使用的時候，其后還跟着一個函數 over()，而函數 over() 的作用是將表中的記錄進行分組和排序。兩者使用的語法為：

ROW_NUMBER() OVER(PARTITION BY COLUMN1 ORDER BY COLUMN2)

意為：將表中的記錄按字段 COLUMN1進行分組，按字段 COLUMN2 進行排序，其中

PARTITION BY：表示分組ORDER BY：表示排序

接下來，咱們還用表“CESHIDEMO”中的數據進行測試。首先，給出沒有使用 row_number() over() 函數時查詢的結果，如下所示：

添加一條記錄

然后，運行如下 SQL 語句，

 
            select PPPRDER.CESHIDEMO.*, row_number() over(partition by age order by name desc) from PPPRDER.CESHIDEMO 
           

得到的結果如下所示：

從上面的結果可以看出，其在原表的基礎上，多了一列標有數字排序的列。那么反過來分析咱們運行的 SQL 語句，發現其確實按字段 AGE 的值進行分組了，也按字段 NAME 的值進行排序啦！因此，函數的功能得到了驗證。

接下來，咱們就研究如何用 row_number() over() 函數實現“去重”的功能。通過觀察上面的結果，咱們可以發現，如果以 NAME 分組，以 AGE 排序，然后再取每組的第一個記錄或許就可以實現“去重”的功能啊！那么試試看，運行如下 SQL 語句，

/*
* 其中 rn 表示最后添加的那一列
*/
 
select * from
(select PPPRDER.CESHIDEMO.*, row_number() over(partition by name order by age desc) rn from PPPRDER.CESHIDEMO)
where rn = 1

運行后，得到的結果如下所示：

3、group by

GROUP BY語句用來與聚合函數(aggregate functions such as COUNT, SUM, AVG, MIN, or MAX.)聯合使用來得到一個或多個列的結果集。

語法如下：

SELECT column1, column2, ... column_n, aggregate_function (expression)

FROM tables

WHERE predicates

GROUP BY column1, column2, ... column_n;

舉例

比如說我們有一個學生表格(student)，包含學號(id)，課程(course)，分數(score)等等多個列，我們想通過查詢得到每個學生選了幾門課程，此時我們就可以聯合使用COUNT函數與GROUP BY語句來得到這一結果

SELECT id, COUNT(course) as numcourse

FROM student

GROUP BY id

因為我們是使用學號來進行分組的，這樣COUNT函數就是在以學號分組的前提下來實現的，通過COUNT(course)就可以計算每一個學號對應的課程數。

注意

因為聚合函數通過作用於一組數據而只返回一個單個值，因此，在SELECT語句中出現的元素要么為一個聚合函數的輸入值，要么為GROUP BY語句的參數，否則會出錯。

例如，對於上面提到的表格，我們做一個這樣的查詢：

SELECT id, COUNT(course) as numcourse, score

FROM student

GROUP BY id

此時查詢便會出錯，錯誤提示如下：

Column ‘student.score' is invalid in the select list because it is not contained in either an aggregate function or the GROUP BY clause.

出現以上錯誤的原因是因為一個學生id對應多個分數，如果我們簡單的在SELECT語句中寫上score，則無法判斷應該輸出哪一個分數。如果想用score作為select語句的參數可以將它用作一個聚合函數的輸入值，如下例，我們可以得到每個學生所選的課程門數以及每個學生的平均分數：

SELECT id, COUNT(course) as numcourse, AVG(score) as avgscore

FROM student

GROUP BY id

HAVING

HAVING語句通常與GROUP BY語句聯合使用，用來過濾由GROUP BY語句返回的記錄集。

HAVING語句的存在彌補了WHERE關鍵字不能與聚合函數聯合使用的不足。

語法：

SELECT column1, column2, ... column_n, aggregate_function (expression)
FROM tables
WHERE predicates
GROUP BY column1, column2, ... column_n
HAVING condition1 ... condition_n;

同樣使用本文中的學生表格，如果想查詢平均分高於80分的學生記錄可以這樣寫：

SELECT id, COUNT(course) as numcourse, AVG(score) as avgscore

FROM student

GROUP BY id

HAVING AVG(score)>=80;

在這里，如果用WHERE代替HAVING就會出錯

select t.a , min(t.b) , t.c from table t

group by t.a,t.c

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 從.net到java，記錄下這三個月的工作對象數組去重及 array.reduce() 方法的記錄 Oracle listagg去重distinct三種方法總結 sqlserver記錄去重前端實現數組去重的三個辦法如何突破工作瓶頸的三個建議 Oracle單表去重復（一） oracle去重操作 Oracle 去重后排序 Oracle 表數據去重