20172328 藍墨雲實驗——三種查找算法練習
- 課程:《軟件結構與數據結構》
- 班級: 1723
- 姓名: 李馨雨
- 學號:20172328
- 實驗教師:王志強老師
- 實驗日期:2018年10月19日
- 必修選修: 必修
一、實驗要求學習內容
-
查找的關鍵:比較
-
用平均比較次數來評估算法的優劣,稱為平均查找長度(ASL)
-
ASL = ∑ p(i)c(i)(i=1,2,3,…,n)
- 其中P(i)為查找表中第i個數據元素的概率,C(i)為找到第i個數據元素時已經比較過的次數.
- 在查找表中查找不到待查元素,但是找到待查元素應該在表中存在的位置的平均查找次數稱為查找不成功時的平均查找長度。
-
線性查找算法的ASL:如果每個關鍵字查找概率相同,則ASL = (n+1)/2;時間復雜度為O(n)
-
二分(折半)查找算法的ASL:如圖所示,時間復雜度為O(log2(n))
-
分塊(索引順序)算法的ASL:因為分塊查找是先折半查找再線性查找,故假設序列分成了n塊,每塊k個元素,那么ASL = LB + LA
那么ASL = (1+n)/2 + (1+k)/2 -
哈希表ASL:哈希表(Hash Table)也叫散列表,是依據關鍵碼值(Key Value)而直接進行訪問的數據結構。它通過把關鍵碼值映射到哈希表中的一個位置來訪問記錄,以加快查找的速度。這個映射函數就做散列函數。存放記錄的數組叫做散列表。
-
查找技術一般基於待查關鍵字和數據項關鍵字的比較,基於關鍵字的比較,其時間復雜度為O(log2(n)~O(n),而哈希表查找可以直接通過關鍵字找到存儲地址,使得查找時間可以是常數級。
-
哈希表存儲的是鍵值對,其查找的時間復雜度與元素數量多少無關。哈希表在查找元素時是通過計算哈希碼值來定位元素的位置從而直接訪問元素的,因此,哈希表查找的時間復雜度為O(1)。
-
哈希沖突的處理方法
1、開放定址法——線性探測法
線性探測法的地址增量di = 1, 2, ... , m-1,當中,i為探測次數。該方法一次探測下一個地址。知道有空的地址后插入。若整個空間都找不到空余的地址,則產生溢出。
線性探測法容易產生“沖突”現象。當表中的第i、i+1、i+2的位置上已經存儲某些keyword,則下一次哈希地址為i、i+1、i+2、i+3的keyword都將企圖填入到i+3的位置上,這樣的多個哈希地址不同的keyword爭奪同一個后繼哈希地址的現象稱為“沖突”。
2、開放地址法——二次探測法
二次探測法的地址增量序列為 di = 12, -12, 22。 -22,… 。 q2, -q2 (q <= m/2)。二次探測能有效避免“聚集”現象,可是不可以探測到哈希表上全部的存儲單元,可是至少可以探測到一半。
3、鏈地址法——拉鏈法
其基本思路是:將全部具有同樣哈希地址的而不同keyword的數據元素連接到同一個單鏈表中。假設選定的哈希表長度為m,則可將哈希表定義為一個有m個頭指針組成的指針數組T[0..m-1]。凡是哈希地址為i的數據元素,均以節點的形式插入到T[i]為頭指針的單鏈表中。而且新的元素插入到鏈表的前端,這不僅由於方便。還由於常常發生這種事實:新近插入的元素最優可能不久又被訪問。
鏈地址法特點:
(1)拉鏈法處理沖突簡單。且無堆積現象,即非同義詞決不會發生沖突,因此平均查找長度較短;
(2)因為拉鏈法中各鏈表上的結點空間是動態申請的。故它更適合於造表前無法確定表長的情況。
(3)開放定址法為降低沖突。要求裝填因子α較小。故當結點規模較大時會浪費非常多空間。而拉鏈法中可取α≥1,且結點較大時,拉鏈法中添加的指針域可忽略不計,因此節省空間;
(4)在用拉鏈法構造的散列表中,刪除結點的操作易於實現。僅僅要簡單地刪去鏈表上對應的結點就可以。而對開放地址法構造的散列表,刪除結點不能簡單地將被刪結點的空間置為空,否則將截斷在它之后填人散列表的同義詞結點的查找路徑。這是由於各種開放地址法中,空地址單元(即開放地址)都是查找失敗的條件。
因此在用開放地址法處理沖突的散列表上運行刪除操作。僅僅能在被刪結點上做刪除標記,而不能真正刪除結點。
四、哈希表的裝填因子α
裝填因子(α) = (哈希表中的記錄數) / (哈希表的長度)
裝填因子是哈希表裝滿程度的標記因子。值越大。填入表中的數據元素越多,產生沖突的可能性越大。
二、實驗題目及解答過程
給定關鍵字序列11,78,10,1,3,2,4,21,試分別用順序查找、折半查找、散列查找(用線性探查法和鏈地址法)來實現查找。
請畫出他們的對應存儲形式(順序查找的順序表和兩種散列查找的散列表),並求出每一種查找的成功平均查找長度。其中,散列表H(k)= k%11
課堂上做的答案如圖所示:
需要改正的內容是線性探查法部分
- 對於錯誤的理解:
關於這個問題,讓我對Hash表查找有了更清楚的認識。
首先,我們是在記錄的存儲地址中查找的,是要在存儲地址和關鍵字序列建立一個確定的對應關系,這樣通過一次存取就能得到所查元素的查找方法。
其次,沖突也是有順序的,當關鍵值序列一個一個往哈希序列中放的時候,沖突要一個一個解決,而不是把能重復的拋在一邊,最后填完了所有出現的H(k)再去解決沖突。
其他(感悟、思考等)
第一次寫課堂錯誤改正博客,感覺有點開心???哈哈,希望是最后一次啦!不過認識的更加深刻啦,也算是好事呀!