SAS中的Order By - Proc Sort

本文轉載自查看原文 2016-07-19 13:49 3962

1.排序proc sort
proc sort在按數據集中某一個變量或幾個變量的升序或降序將記錄重新排列，並把結果保存在輸出數據集中，如果不另外指定輸出數據集，則覆蓋輸入數據集。
在data步和proc步某些操作中，當需要用到by語句時，一般都需要源數據集按照by語句中的變量事先排序，這里就需要用到proc sort。

(1)語法格式
PROC SORT ;
BY variable-1 <... variable-n>;
proc sort一些常用的選項：
·數據集選項
data= 輸入數據集，缺省時使用最近創建的數據集
out= 輸出數據集，缺省時表示排序后覆蓋源數據集
·排序序列選項
sortseq= 指定排序的序列，這跟使用的操作系統有關，Windows/Unix都是ASCII編碼，一般這個選項缺省就行；也可以直接在proc sort后面加上編碼名稱。
·修改排序次序的選項
reverse 使用由正常排序序列相反的排序序列對字符變量進行排序，可以被by語句中的descending選項取代，reverse只能用於字符變量。
equals|noequals 規定輸出數據集中具有相同by變量的那些記錄的次序，equals選項是保持在輸入數據集中原來的相對次序，而noequals選項則沒有這一限制。
·刪除重復記錄的選項
noduprecs 刪除重復的記錄，發生在排序后，將完全相同的記錄刪除。
nodupkey 刪除重復的by變量記錄，發生在排序中，sort過程讀取輸入數據集中的記錄，在寫入輸出數據集時先比較by變量值，如有重復則部寫入輸出數據集。這個選項要小心使用，因為SAS會刪除by變量重復的記錄，而不管該記錄是不是重復的，這樣就會丟失有效的數據。
·其他選項
datecopy 保留數據集創建或修改的日期，缺省時排序也會被認為是修改，上次的修改時間就會被覆蓋，可是有些時候我們並不希望SAS這么做。
force 強制排序，不管輸入數據集是否已經排序或有索引，都進行重新排序
內存與磁盤優化選項排序在各種語言中是一種基本的算法，當數據集很大時會占用大量的計算機資源，這些選項提供算法在這方面的優化。

by語句
缺省情況下，是按照變量進行升序排列(ascending)，降序則要顯性的用descending指明。
特別的是，這兩個關鍵字應該寫在變量的前面，而其他語言可能相反，如SQL將排序關鍵字放在變量之后。

(2)運行機制
proc sort會先檢查輸入數據集的排序信息，特別是sortedby=選項，如果輸入數據集提示已經按照by變量進行過排序，或者sort過程檢測到數據集中記錄的順序按照by變量本來就是有序的，則proc sort就會偷懶，不進行排序，直接將輸入數據集復制到輸出數據集中；另外，如果輸入數據集在by變量上已經創建索引，則也不進行排序，因為排序之后會破壞原來的索引。除此之外，proc sort才會進行排序。
那么，如果用戶要強制sort過程進行排序呢？那就需要用到force選項了。
(3)實例
對數據集按年齡大小進行排序，相同年齡的觀測仍然按原來的次序。
proc sort data=age equals;http://www.cda.cn/view/18248.html
by age;
run;

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 SAS中PROC NLMIXED的應用 PROC SORT 【SAS BASE】PROC REPORT 【SAS BASE】PROC EXPORT Hive中order by sort by distribute by cluster by用法 hive中order by,sort by, distribute by, cluster by的用法 SAS筆記(6) PROC MEANS和PROC FREQ 【SAS BASE】PROC CONTENTS與LABEL 【SAS NOTES】proc sgplot散點圖 SAS--proc print data=