SQL Server 窗口函數詳解:OVER()


語法

開窗函數支持分區、排序和框架三種元素,其語法格式如下:

OVER ( [ <PARTITION BY clause> ]  
       [ <ORDER BY clause> ]   
       [ <ROW or RANGE clause> ] )  

<PARTITION BY clause> ::=  PARTITION BY value_expression , ... [ n ]  
<ORDER BY clause> ::=  ORDER BY order_by_expression [ COLLATE collation_name ] [ ASC | DESC ] [ ,...n ]  
<ROW or RANGE clause> ::=  { ROWS | RANGE } <window frame extent>  
<window frame extent> ::=  { <window frame preceding>  | <window frame between> }  
<window frame between> ::=  BETWEEN <window frame bound> AND <window frame bound>  
<window frame bound> ::=  { <window frame preceding> | <window frame following> }  
<window frame preceding> ::= { UNBOUNDED PRECEDING | <unsigned_value_specification> PRECEDING | CURRENT ROW }  
<window frame following> ::= { UNBOUNDED FOLLOWING | <unsigned_value_specification> FOLLOWING | CURRENT ROW }  
<unsigned value specification> ::= { <unsigned integer literal> }

 

【窗口分區】:就是將窗口指定列具有相同值的那些行進行分區,分區與分組比較類似,但是分組指定后對於整個SELECT語句只能按照這個分組,不過分區可以在一條語句中指定不同的分區。
【窗口排序】:分區之后可以指定排序列,那么在窗口計算之前,各個窗口的行的邏輯順序將確定。
【窗口框架】:框架是對窗口進行進一步的分區,框架有兩種范圍限定方式:一種是使用ROWS子句,通過指定當前行之前或之后的固定數目的行來限制分區中的行數;另一種是RANGE子句,按照排序列的當前值,根據相同值來確定分區中的行數。

  • 當使用框架時,必須要有ORDER BY子句,如果僅指定了ORDER BY子句而未指定框架,那么默認框架將采用 RANGE UNBOUNDED PRECEDING AND CURRENT ROW。
  • 如果窗口函數沒有指定ORDER BY子句,也就不存在ROWS/RANGE窗口的計算。
  • 如果ROWS/RANGE子句采用 <window frame preceding>,那么CURRENT ROW 作為框架的默認結束行,例如:“ROWS 5 PRECEDING” 等價於 “ROWS BETWEEN 5 PRECEDING AND CURRENT ROW”。
  • PS:RANGE 只支持使用 UNBOUNDED 和 CURRENT ROW 窗口框架分隔符。

示例

1、未使用 partition by 指定分區示例

select *,
    sum(U_Id) over(order by U_Id) 列1,
    sum(U_Id) over(order by U_Id RANGE BETWEEN unbounded preceding AND CURRENT ROW) 列2,
    sum(U_Id) over(order by U_Id rows  BETWEEN unbounded preceding AND CURRENT ROW) 列3,
    sum(U_Id) over(order by U_Id rows BETWEEN 1 preceding AND 2 following) 列4,
    sum(U_Id) over(order by U_Id ROWS BETWEEN 1 PRECEDING AND CURRENT ROW) 列5
from UserInfo

技術分享

結果分析:

RANGE 是邏輯窗口,是指定當前行對應值的范圍取值,列數不固定,只要行值在范圍內,對應列都包含在內。
ROWS 是物理窗口,即根據order by 子句排序后,取的前N行及后N行的數據計算。(與當前行的值無關,只與排序后的行號相關)

  • 【列1】未指定窗口,所以默認為 RANGE UNBOUNDED PRECEDING AND CURRENT ROW,故此與【列2】值相同。
  • 【列2】RANGE BETWEEN unbounded preceding AND CURRENT ROW 表示指定取值范圍為 當前行與當前行前面的所有行的值。
    即第一行的值為:1  第二行的值為:3+1  第三行的值為:4+3+1
  • 【列3】rows BETWEEN unbounded preceding AND CURRENT ROW 表示指定取值范圍為 當前行與當前行前面的所有行的值。
    即第一行的值為:1  第二行的值為:3+1  第三行的值為:4+3+1
  • 【列4】rows BETWEEN 1 preceding AND 2 following 表示指定取值范圍為 當前行與前一行和后兩行的值。
    即第一行的值為:1+3+4  第二行的值為:1+3+4+5  第三行的值為:3+4+5+6
  • 【列5】ROWS BETWEEN 1 PRECEDING AND CURRENT ROW 表示指定取值范圍為 當前行與前一行的值。
    即第一行的值為:1  第二行的值為:1+3  第三行的值為:3+4

2、使用 partition by 指定分區示例

select *,
    sum(U_Id) over(partition by U_Pwd order by U_Id) 列1,
    sum(U_Id) over(partition by U_Pwd order by U_Id RANGE BETWEEN unbounded preceding AND CURRENT ROW) 列2,
    sum(U_Id) over(partition by U_Pwd order by U_Id rows  BETWEEN unbounded preceding AND CURRENT ROW) 列3,
    sum(U_Id) over(partition by U_Pwd order by U_Id rows BETWEEN 1 preceding AND 2 following) 列4,
    sum(U_Id) over(partition by U_Pwd order by U_Id ROWS BETWEEN 1 PRECEDING AND CURRENT ROW) 列5
from UserInfo

技術分享

以上根據 列(U_Pwd)被分為3個區,使用 partition by 指定分區就是先進行分區,然后再根據指定窗口和指定窗口取值范圍進行計算。


 ROWS與RANGE之間的區別

當你用OVER()子句進行你的分析計算來打開你的窗口,你也可以在窗口里看到的,通過ROWS與RANGE選項來限制你的行數。來看下面的T-SQL語句:  

SELECT
    t.OrderYear, t.OrderMonth, t.TotalDue,
    SUM(t.TotalDue) OVER(ORDER BY t.OrderYear, t.OrderMonth ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS 'RunningTotal'
FROM
(
    SELECT
        YEAR(OrderDate) AS 'OrderYear', MONTH(OrderDate) AS 'OrderMonth', SalesPersonID, TotalDue
    FROM Sales.SalesOrderHeader 
) AS t
WHERE
    t.SalesPersonID = 274 AND t.OrderYear = 2005
GO

 這個T-SQL語句用SUM()聚合函數進行匯總計算。窗口本身從第1行(UNBOUNDED PRECEDING)上至當前行(CURRENT ROW)。對於記錄級中的每1行,窗口變得越來越大,因此很容易進行匯總運算。下圖演示了這個概念。

從輸出你可以看到,結果是個自增長的匯總——運行合計匯總的結果。

現在假設你修改窗口為RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW,會發生什么:

SELECT
    t.OrderYear, t.OrderMonth, t.TotalDue,
    SUM(t.TotalDue) OVER(ORDER BY t.OrderYear, t.OrderMonth RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW) AS 'RunningTotal'
FROM
(
    SELECT
        YEAR(OrderDate) AS 'OrderYear', MONTH(OrderDate) AS 'OrderMonth', SalesPersonID, TotalDue
    FROM Sales.SalesOrderHeader 
) AS t
WHERE
    t.SalesPersonID = 274 AND t.OrderYear = 2005
GO

 從下圖你可以看到,你得到了不同的結果,對於2005年11月的記錄顯示同樣的匯總。

我們來嘗試理解下為什么這里RANGE選項比ROWS選項給你不同的結果。

使用ROWS選項你定義當前行的固定前后記錄。這里你看到的行取決於窗口的ORDER BY從句。你也可以說你在物理級別定義你的窗口。

使用RANGE選項事情就改變了。RANGE選項包含窗口里的所有行,和當前行有相同ORDER BY值。從剛才的圖片你可以看到,對於2005年11月的2條記錄你拿到同個匯總,因為這2行有同樣的ORDER BY值(2005年11月)。使用RANGE選項你在邏輯級別定義你的窗口。如果更多的行有同個ORDER BY值,當你使用ROWS選項你的窗口會包含更多的行。 

小結

使用ROWS選項你在物理級別定義在你窗口里有多少行。使用RANGE選項取決於ORDER BY值在窗口里有多少行被包含。因此當你使用RANGE選項時有性能上的巨大區別。



免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM