說基數排序之前,我們先說桶排序:
基本思想:是將陣列分到有限數量的桶子里。每個桶子再個別排序(有可能再使用別的排序算法或是以遞回方式繼續使用桶排序進行排序)。桶排序是鴿巢排序的一種歸納結果。當要被排序的陣列內的數值是均勻分配的時候,桶排序使用線性時間(Θ(n))。但桶排序並不是 比較排序,他不受到 O(n log n) 下限的影響。
簡單來說,就是把數據分組,放在一個個的桶中,然后對每個桶里面的在進行排序。
例如要對大小為[1..1000]范圍內的n個整數A[1..n]排序
首先,可以把桶設為大小為10的范圍,具體而言,設集合B[1]存儲[1..10]的整數,集合B[2]存儲 (10..20]的整數,……集合B[i]存儲( (i-1)*10, i*10]的整數,i = 1,2,..100。總共有 100個桶。
然后,對A[1..n]從頭到尾掃描一遍,把每個A[i]放入對應的桶B[j]中。 再對這100個桶中每個桶里的數字排序,這時可用冒泡,選擇,乃至快排,一般來說任 何排序法都可以。
最后,依次輸出每個桶里面的數字,且每個桶中的數字從小到大輸出,這 樣就得到所有數字排好序的一個序列了。
假設有n個數字,有m個桶,如果數字是平均分布的,則每個桶里面平均有n/m個數字。如果
對每個桶中的數字采用快速排序,那么整個算法的復雜度是
O(n + m * n/m*log(n/m)) = O(n + nlogn - nlogm)
從上式看出,當m接近n的時候,桶排序復雜度接近O(n)
當然,以上復雜度的計算是基於輸入的n個數字是平均分布這個假設的。這個假設是很強的 ,實際應用中效果並沒有這么好。如果所有的數字都落在同一個桶中,那就退化成一般的排序了。
前面說的幾大排序算法 ,大部分時間復雜度都是O(n2),也有部分排序算法時間復雜度是O(nlogn)。而桶式排序卻能實現O(n)的時間復雜度。但桶排序的缺點是:
1)首先是空間復雜度比較高,需要的額外開銷大。排序有兩個數組的空間開銷,一個存放待排序數組,一個就是所謂的桶,比如待排序值是從0到m-1,那就需要m個桶,這個桶數組就要至少m個空間。
2)其次待排序的元素都要在一定的范圍內等等。
桶式排序是一種分配排序。分配排序的特定是不需要進行關鍵碼的比較,但前提是要知道待排序列的一些具體情況。
分配排序的基本思想:實例:
撲克牌中52 張牌,可按花色和面值分成兩個字段,其大小關系為:
花色: 梅花< 方塊< 紅心< 黑心
面值: 2 < 3 < 4 < 5 < 6 < 7 < 8 < 9 < 10 < J < Q < K < A
若對撲克牌按花色、面值進行升序排序,得到如下序列:
即兩張牌,若花色不同,不論面值怎樣,花色低的那張牌小於花色高的,只有在同花色情況下,大小關系才由面值的大小確定。這就是多關鍵碼排序。
為得到排序結果,我們討論兩種排序方法。
方法1:先對花色排序,將其分為4 個組,即梅花組、方塊組、紅心組、黑心組。再對每個組分別按面值進行排序,最后,將4 個組連接起來即可。
方法2:先按13 個面值給出13 個編號組(2 號,3 號,...,A 號),將牌按面值依次放入對應的編號組,分成13 堆。再按花色給出4 個編號組(梅花、方塊、紅心、黑心),將2號組中牌取出分別放入對應花色組,再將3 號組中牌取出分別放入對應花色組,……,這樣,4 個花色組中均按面值有序,然后,將4 個花色組依次連接起來即可。
設n 個元素的待排序列包含d 個關鍵碼{k1,k2,…,kd},則稱序列對關鍵碼{k1,k2,…,kd}有序是指:對於序列中任兩個記錄r[i]和r[j](1≤i≤j≤n)都滿足下列有序關系:
其中k1 稱為最主位關鍵碼,kd 稱為最次位關鍵碼 。
兩種多關鍵碼排序方法:
多關鍵碼排序按照從最主位關鍵碼到最次位關鍵碼或從最次位到最主位關鍵碼的順序逐次排序,分兩種方法:
最高位優先(Most Significant Digit first)法,簡稱MSD 法:
1)先按k1 排序分組,將序列分成若干子序列,同一組序列的記錄中,關鍵碼k1 相等。
2)再對各組按k2 排序分成子組,之后,對后面的關鍵碼繼續這樣的排序分組,直到按最次位關鍵碼kd 對各子組排序后。
3)再將各組連接起來,便得到一個有序序列。撲克牌按花色、面值排序中介紹的方法一即是MSD 法。
最低位優先(Least Significant Digit first)法,簡稱LSD 法:
1) 先從kd 開始排序,再對kd-1進行排序,依次重復,直到按k1排序分組分成最小的子序列后。
2) 最后將各個子序列連接起來,便可得到一個有序的序列, 撲克牌按花色、面值排序中介紹的方法二即是LSD 法。
基於LSD方法的鏈式基數排序的基本思想
“多關鍵字排序”的思想實現“單關鍵字排序”。對數字型或字符型的單關鍵字,可以看作由多個數位或多個字符構成的多關鍵字,此時可以采用“分配-收集”的方法進行排序,這一過程稱作基數排序法,其中每個數字或字符可能的取值個數稱為基數。比如,撲克牌的花色基數為4,面值基數為13。在整理撲克牌時,既可以先按花色整理,也可以先按面值整理。按花色整理時,先按紅、黑、方、花的順序分成4摞(分配),再按此順序再疊放在一起(收集),然后按面值的順序分成13摞(分配),再按此順序疊放在一起(收集),如此進行二次分配和收集即可將撲克牌排列有序。
基數排序:
是按照低位先排序,然后收集;再按照高位排序,然后再收集;依次類推,直到最高位。有時候有些屬性是有優先級順序的,先按低優先級排序,再按高優先級排序。最后的次序就是高優先級高的在前,高優先級相同的低優先級高的在前。基數排序基於分別排序,分別收集,所以是穩定的。
算法實現:
Void RadixSort(Node L[],length,maxradix) { int m,n,k,lsp; k=1;m=1; int temp[10][length-1]; Empty(temp); //清空臨時空間 while(k<maxradix) //遍歷所有關鍵字 { for(int i=0;i<length;i++) //分配過程 { if(L[i]<m) Temp[0][n]=L[i]; else Lsp=(L[i]/m)%10; //確定關鍵字 Temp[lsp][n]=L[i]; n++; } CollectElement(L,Temp); //收集 n=0; m=m*10; k++; } }
總結
各種排序的穩定性,時間復雜度和空間復雜度總結:
我們比較時間復雜度函數的情況:
時間復雜度函數O(n)的增長情況
所以對n較大的排序記錄。一般的選擇都是時間復雜度為O(nlog2n)的排序方法。
時間復雜度來說:
(1)平方階(O(n2))排序
各類簡單排序:直接插入、直接選擇和冒泡排序;
(2)線性對數階(O(nlog2n))排序
快速排序、堆排序和歸並排序;
(3)O(n1+§))排序,§是介於0和1之間的常數。
希爾排序
(4)線性階(O(n))排序
基數排序,此外還有桶、箱排序。
說明:
當原表有序或基本有序時,直接插入排序和冒泡排序將大大減少比較次數和移動記錄的次數,時間復雜度可降至O(n);
而快速排序則相反,當原表基本有序時,將蛻化為冒泡排序,時間復雜度提高為O(n2);
原表是否有序,對簡單選擇排序、堆排序、歸並排序和基數排序的時間復雜度影響不大。
穩定性:
排序算法的穩定性:若待排序的序列中,存在多個具有相同關鍵字的記錄,經過排序, 這些記錄的相對次序保持不變,則稱該算法是穩定的;若經排序后,記錄的相對 次序發生了改變,則稱該算法是不穩定的。
穩定性的好處:排序算法如果是穩定的,那么從一個鍵上排序,然后再從另一個鍵上排序,第一個鍵排序的結果可以為第二個鍵排序所用。基數排序就是這樣,先按低位排序,逐次按高位排序,低位相同的元素其順序再高位也相同時是不會改變的。另外,如果排序算法穩定,可以避免多余的比較;
穩定的排序算法:冒泡排序、插入排序、歸並排序和基數排序
不是穩定的排序算法:選擇排序、快速排序、希爾排序、堆排序
選擇排序算法准則:
每種排序算法都各有優缺點。因此,在實用時需根據不同情況適當選用,甚至可以將多種方法結合起來使用。
選擇排序算法的依據
影響排序的因素有很多,平均時間復雜度低的算法並不一定就是最優的。相反,有時平均時間復雜度高的算法可能更適合某些特殊情況。同時,選擇算法時還得考慮它的可讀性,以利於軟件的維護。一般而言,需要考慮的因素有以下四點:
1.待排序的記錄數目n的大小;
2.記錄本身數據量的大小,也就是記錄中除關鍵字外的其他信息量的大小;
3.關鍵字的結構及其分布情況;
4.對排序穩定性的要求。
設待排序元素的個數為n.
1)當n較大,則應采用時間復雜度為O(nlog2n)的排序方法:快速排序、堆排序或歸並排序序。
快速排序:是目前基於比較的內部排序中被認為是最好的方法,當待排序的關鍵字是隨機分布時,快速排序的平均時間最短;
堆排序 : 如果內存空間允許且要求穩定性的,
歸並排序:它有一定數量的數據移動,所以我們可能過與插入排序組合,先獲得一定長度的序列,然后再合並,在效率上將有所提高。
2) 當n較大,內存空間允許,且要求穩定性 =》歸並排序
3)當n較小,可采用直接插入或直接選擇排序。
直接插入排序:當元素分布有序,直接插入排序將大大減少比較次數和移動記錄的次數。
直接選擇排序 :元素分布有序,如果不要求穩定性,選擇直接選擇排序
5)一般不使用或不直接使用傳統的冒泡排序。
6)基數排序
它是一種穩定的排序算法,但有一定的局限性:
1、關鍵字可分解。
2、記錄的關鍵字位數較少,如果密集更好
3、如果是數字時,最好是無符號的,否則將增加相應的映射復雜度,可先將其