數據結構與算法_29 _ 堆的應用：如何快速獲取到Top 10最熱門的搜索關鍵詞

本文轉載自查看原文 2021-08-12 18:12 118 數據結構與算法

搜索引擎的熱門搜索排行榜功能你用過嗎？你知道這個功能是如何實現的嗎？實際上，它的實現並不復雜。搜索引擎每天會接收大量的用戶搜索請求，它會把這些用戶輸入的搜索關鍵詞記錄下來，然后再離線地統計分析，得到最熱門的Top 10搜索關鍵詞。

那請你思考下，假設現在我們有一個包含10億個搜索關鍵詞的日志文件，如何能快速獲取到熱門榜Top 10的搜索關鍵詞呢？

這個問題就可以用堆來解決，這也是堆這種數據結構一個非常典型的應用。上一節我們講了堆和堆排序的一些理論知識，今天我們就來講一講，堆這種數據結構幾個非常重要的應用：優先級隊列、求Top K和求中位數。

堆的應用一：優先級隊列

首先，我們來看第一個應用場景：優先級隊列。

優先級隊列，顧名思義，它首先應該是一個隊列。我們前面講過，隊列最大的特性就是先進先出。不過，在優先級隊列中，數據的出隊順序不是先進先出，而是按照優先級來，優先級最高的，最先出隊。

如何實現一個優先級隊列呢？方法有很多，但是用堆來實現是最直接、最高效的。這是因為，堆和優先級隊列非常相似。一個堆就可以看作一個優先級隊列。很多時候，它們只是概念上的區分而已。往優先級隊列中插入一個元素，就相當於往堆中插入一個元素；從優先級隊列中取出優先級最高的元素，就相當於取出堆頂元素。

你可別小看這個優先級隊列，它的應用場景非常多。我們后面要講的很多數據結構和算法都要依賴它。比如，赫夫曼編碼、圖的最短路徑、最小生成樹算法等等。不僅如此，很多語言中，都提供了優先級隊列的實現，比如，Java的PriorityQueue，C++的priority_queue等。

只講這些應用場景比較空泛，現在，我舉兩個具體的例子，讓你感受一下優先級隊列具體是怎么用的。

1.合並有序小文件

假設我們有100個小文件，每個文件的大小是100MB，每個文件中存儲的都是有序的字符串。我們希望將這些100個小文件合並成一個有序的大文件。這里就會用到優先級隊列。

整體思路有點像歸並排序中的合並函數。我們從這100個文件中，各取第一個字符串，放入數組中，然后比較大小，把最小的那個字符串放入合並后的大文件中，並從數組中刪除。

假設，這個最小的字符串來自於13.txt這個小文件，我們就再從這個小文件取下一個字符串，放到數組中，重新比較大小，並且選擇最小的放入合並后的大文件，將它從數組中刪除。依次類推，直到所有的文件中的數據都放入到大文件為止。

這里我們用數組這種數據結構，來存儲從小文件中取出來的字符串。每次從數組中取最小字符串，都需要循環遍歷整個數組，顯然，這不是很高效。有沒有更加高效方法呢？

這里就可以用到優先級隊列，也可以說是堆。我們將從小文件中取出來的字符串放入到小頂堆中，那堆頂的元素，也就是優先級隊列隊首的元素，就是最小的字符串。我們將這個字符串放入到大文件中，並將其從堆中刪除。然后再從小文件中取出下一個字符串，放入到堆中。循環這個過程，就可以將100個小文件中的數據依次放入到大文件中。

我們知道，刪除堆頂數據和往堆中插入數據的時間復雜度都是O(logn)，n表示堆中的數據個數，這里就是100。是不是比原來數組存儲的方式高效了很多呢？

2.高性能定時器

假設我們有一個定時器，定時器中維護了很多定時任務，每個任務都設定了一個要觸發執行的時間點。定時器每過一個很小的單位時間（比如1秒），就掃描一遍任務，看是否有任務到達設定的執行時間。如果到達了，就拿出來執行。

但是，這樣每過1秒就掃描一遍任務列表的做法比較低效，主要原因有兩點：第一，任務的約定執行時間離當前時間可能還有很久，這樣前面很多次掃描其實都是徒勞的；第二，每次都要掃描整個任務列表，如果任務列表很大的話，勢必會比較耗時。

針對這些問題，我們就可以用優先級隊列來解決。我們按照任務設定的執行時間，將這些任務存儲在優先級隊列中，隊列首部（也就是小頂堆的堆頂）存儲的是最先執行的任務。

這樣，定時器就不需要每隔1秒就掃描一遍任務列表了。它拿隊首任務的執行時間點，與當前時間點相減，得到一個時間間隔T。

這個時間間隔T就是，從當前時間開始，需要等待多久，才會有第一個任務需要被執行。這樣，定時器就可以設定在T秒之后，再來執行任務。從當前時間點到（T-1）秒這段時間里，定時器都不需要做任何事情。

當T秒時間過去之后，定時器取優先級隊列中隊首的任務執行。然后再計算新的隊首任務的執行時間點與當前時間點的差值，把這個值作為定時器執行下一個任務需要等待的時間。

這樣，定時器既不用間隔1秒就輪詢一次，也不用遍歷整個任務列表，性能也就提高了。

堆的應用二：利用堆求Top K

剛剛我們學習了優先級隊列，我們現在來看，堆的另外一個非常重要的應用場景，那就是“求Top K問題”。

我把這種求Top K的問題抽象成兩類。一類是針對靜態數據集合，也就是說數據集合事先確定，不會再變。另一類是針對動態數據集合，也就是說數據集合事先並不確定，有數據動態地加入到集合中。

針對靜態數據，如何在一個包含n個數據的數組中，查找前K大數據呢？我們可以維護一個大小為K的小頂堆，順序遍歷數組，從數組中取出數據與堆頂元素比較。如果比堆頂元素大，我們就把堆頂元素刪除，並且將這個元素插入到堆中；如果比堆頂元素小，則不做處理，繼續遍歷數組。這樣等數組中的數據都遍歷完之后，堆中的數據就是前K大數據了。

遍歷數組需要O(n)的時間復雜度，一次堆化操作需要O(logK)的時間復雜度，所以最壞情況下，n個元素都入堆一次，時間復雜度就是O(nlogK)。

針對動態數據求得Top K就是實時Top K。怎么理解呢？我舉一個例子。一個數據集合中有兩個操作，一個是添加數據，另一個詢問當前的前K大數據。

如果每次詢問前K大數據，我們都基於當前的數據重新計算的話，那時間復雜度就是O(nlogK)，n表示當前的數據的大小。實際上，我們可以一直都維護一個K大小的小頂堆，當有數據被添加到集合中時，我們就拿它與堆頂的元素對比。如果比堆頂元素大，我們就把堆頂元素刪除，並且將這個元素插入到堆中；如果比堆頂元素小，則不做處理。這樣，無論任何時候需要查詢當前的前K大數據，我們都可以立刻返回給他。

堆的應用三：利用堆求中位數

前面我們講了如何求Top K的問題，現在我們來講下，如何求動態數據集合中的中位數。

中位數，顧名思義，就是處在中間位置的那個數。如果數據的個數是奇數，把數據從小到大排列，那第$\frac{n}{2}+1$個數據就是中位數（注意：假設數據是從0開始編號的）；如果數據的個數是偶數的話，那處於中間位置的數據有兩個，第$\frac{n}{2}$個和第$\frac{n}{2}+1$個數據，這個時候，我們可以隨意取一個作為中位數，比如取兩個數中靠前的那個，就是第$\frac{n}{2}$個數據。

對於一組靜態數據，中位數是固定的，我們可以先排序，第$\frac{n}{2}$個數據就是中位數。每次詢問中位數的時候，我們直接返回這個固定的值就好了。所以，盡管排序的代價比較大，但是邊際成本會很小。但是，如果我們面對的是動態數據集合，中位數在不停地變動，如果再用先排序的方法，每次詢問中位數的時候，都要先進行排序，那效率就不高了。

借助堆這種數據結構，我們不用排序，就可以非常高效地實現求中位數操作。我們來看看，它是如何做到的？

我們需要維護兩個堆，一個大頂堆，一個小頂堆。大頂堆中存儲前半部分數據，小頂堆中存儲后半部分數據，且小頂堆中的數據都大於大頂堆中的數據。

也就是說，如果有n個數據，n是偶數，我們從小到大排序，那前$\frac{n}{2}$個數據存儲在大頂堆中，后$\frac{n}{2}$個數據存儲在小頂堆中。這樣，大頂堆中的堆頂元素就是我們要找的中位數。如果n是奇數，情況是類似的，大頂堆就存儲$\frac{n}{2}+1$個數據，小頂堆中就存儲$\frac{n}{2}$個數據。

我們前面也提到，數據是動態變化的，當新添加一個數據的時候，我們如何調整兩個堆，讓大頂堆中的堆頂元素繼續是中位數呢？

如果新加入的數據小於等於大頂堆的堆頂元素，我們就將這個新數據插入到大頂堆；否則，我們就將這個新數據插入到小頂堆。

這個時候就有可能出現，兩個堆中的數據個數不符合前面約定的情況：如果n是偶數，兩個堆中的數據個數都是$\frac{n}{2}$；如果n是奇數，大頂堆有$\frac{n}{2}+1$個數據，小頂堆有$\frac{n}{2}$個數據。這個時候，我們可以從一個堆中不停地將堆頂元素移動到另一個堆，通過這樣的調整，來讓兩個堆中的數據滿足上面的約定。

於是，我們就可以利用兩個堆，一個大頂堆、一個小頂堆，實現在動態數據集合中求中位數的操作。插入數據因為需要涉及堆化，所以時間復雜度變成了O(logn)，但是求中位數我們只需要返回大頂堆的堆頂元素就可以了，所以時間復雜度就是O(1)。

實際上，利用兩個堆不僅可以快速求出中位數，還可以快速求其他百分位的數據，原理是類似的。還記得我們在“為什么要學習數據結構與算法”里的這個問題嗎？“如何快速求接口的99%響應時間？”我們現在就來看下，利用兩個堆如何來實現。

在開始這個問題的講解之前，我先解釋一下，什么是“99%響應時間”。

中位數的概念就是將數據從小到大排列，處於中間位置，就叫中位數，這個數據會大於等於前面50%的數據。99百分位數的概念可以類比中位數，如果將一組數據從小到大排列，這個99百分位數就是大於前面99%數據的那個數據。

如果你還是不太理解，我再舉個例子。假設有100個數據，分別是1，2，3，……，100，那99百分位數就是99，因為小於等於99的數占總個數的99%。

弄懂了這個概念，我們再來看99%響應時間。如果有100個接口訪問請求，每個接口請求的響應時間都不同，比如55毫秒、100毫秒、23毫秒等，我們把這100個接口的響應時間按照從小到大排列，排在第99的那個數據就是99%響應時間，也叫99百分位響應時間。

我們總結一下，如果有n個數據，將數據從小到大排列之后，99百分位數大約就是第n*99%個數據，同類，80百分位數大約就是第n*80%個數據。

弄懂了這些，我們再來看如何求99%響應時間。

我們維護兩個堆，一個大頂堆，一個小頂堆。假設當前總數據的個數是n，大頂堆中保存n*99%個數據，小頂堆中保存n*1%個數據。大頂堆堆頂的數據就是我們要找的99%響應時間。

每次插入一個數據的時候，我們要判斷這個數據跟大頂堆和小頂堆堆頂數據的大小關系，然后決定插入到哪個堆中。如果這個新插入的數據比大頂堆的堆頂數據小，那就插入大頂堆；如果這個新插入的數據比小頂堆的堆頂數據大，那就插入小頂堆。

但是，為了保持大頂堆中的數據占99%，小頂堆中的數據占1%，在每次新插入數據之后，我們都要重新計算，這個時候大頂堆和小頂堆中的數據個數，是否還符合99:1這個比例。如果不符合，我們就將一個堆中的數據移動到另一個堆，直到滿足這個比例。移動的方法類似前面求中位數的方法，這里我就不啰嗦了。

通過這樣的方法，每次插入數據，可能會涉及幾個數據的堆化操作，所以時間復雜度是O(logn)。每次求99%響應時間的時候，直接返回大頂堆中的堆頂數據即可，時間復雜度是O(1)。

解答開篇

學懂了上面的一些應用場景的處理思路，我想你應該能解決開篇的那個問題了吧。假設現在我們有一個包含10億個搜索關鍵詞的日志文件，如何快速獲取到Top 10最熱門的搜索關鍵詞呢？

處理這個問題，有很多高級的解決方法，比如使用MapReduce等。但是，如果我們將處理的場景限定為單機，可以使用的內存為1GB。那這個問題該如何解決呢？

因為用戶搜索的關鍵詞，有很多可能都是重復的，所以我們首先要統計每個搜索關鍵詞出現的頻率。我們可以通過散列表、平衡二叉查找樹或者其他一些支持快速查找、插入的數據結構，來記錄關鍵詞及其出現的次數。

假設我們選用散列表。我們就順序掃描這10億個搜索關鍵詞。當掃描到某個關鍵詞時，我們去散列表中查詢。如果存在，我們就將對應的次數加一；如果不存在，我們就將它插入到散列表，並記錄次數為1。以此類推，等遍歷完這10億個搜索關鍵詞之后，散列表中就存儲了不重復的搜索關鍵詞以及出現的次數。

然后，我們再根據前面講的用堆求Top K的方法，建立一個大小為10的小頂堆，遍歷散列表，依次取出每個搜索關鍵詞及對應出現的次數，然后與堆頂的搜索關鍵詞對比。如果出現次數比堆頂搜索關鍵詞的次數多，那就刪除堆頂的關鍵詞，將這個出現次數更多的關鍵詞加入到堆中。

以此類推，當遍歷完整個散列表中的搜索關鍵詞之后，堆中的搜索關鍵詞就是出現次數最多的Top 10搜索關鍵詞了。

不知道你發現了沒有，上面的解決思路其實存在漏洞。10億的關鍵詞還是很多的。我們假設10億條搜索關鍵詞中不重復的有1億條，如果每個搜索關鍵詞的平均長度是50個字節，那存儲1億個關鍵詞起碼需要5GB的內存空間，而散列表因為要避免頻繁沖突，不會選擇太大的裝載因子，所以消耗的內存空間就更多了。而我們的機器只有1GB的可用內存空間，所以我們無法一次性將所有的搜索關鍵詞加入到內存中。這個時候該怎么辦呢？

我們在哈希算法那一節講過，相同數據經過哈希算法得到的哈希值是一樣的。我們可以根據哈希算法的這個特點，將10億條搜索關鍵詞先通過哈希算法分片到10個文件中。

具體可以這樣做：我們創建10個空文件00，01，02，……，09。我們遍歷這10億個關鍵詞，並且通過某個哈希算法對其求哈希值，然后哈希值同10取模，得到的結果就是這個搜索關鍵詞應該被分到的文件編號。

對這10億個關鍵詞分片之后，每個文件都只有1億的關鍵詞，去除掉重復的，可能就只有1000萬個，每個關鍵詞平均50個字節，所以總的大小就是500MB。1GB的內存完全可以放得下。

我們針對每個包含1億條搜索關鍵詞的文件，利用散列表和堆，分別求出Top 10，然后把這個10個Top 10放在一塊，然后取這100個關鍵詞中，出現次數最多的10個關鍵詞，這就是這10億數據中的Top 10最頻繁的搜索關鍵詞了。

內容小結

我們今天主要講了堆的幾個重要的應用，它們分別是：優先級隊列、求Top K問題和求中位數問題。

優先級隊列是一種特殊的隊列，優先級高的數據先出隊，而不再像普通的隊列那樣，先進先出。實際上，堆就可以看作優先級隊列，只是稱謂不一樣罷了。求Top K問題又可以分為針對靜態數據和針對動態數據，只需要利用一個堆，就可以做到非常高效率地查詢Top K的數據。求中位數實際上還有很多變形，比如求99百分位數據、90百分位數據等，處理的思路都是一樣的，即利用兩個堆，一個大頂堆，一個小頂堆，隨着數據的動態添加，動態調整兩個堆中的數據，最后大頂堆的堆頂元素就是要求的數據。

課后思考

有一個訪問量非常大的新聞網站，我們希望將點擊量排名Top 10的新聞摘要，滾動顯示在網站首頁banner上，並且每隔1小時更新一次。如果你是負責開發這個功能的工程師，你會如何來實現呢？

歡迎留言和我分享，我會第一時間給你反饋。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 數據結構和算法-Top K算法搜索關鍵詞智能提示suggestion WordPress如何屏蔽惡意關鍵詞搜索數據結構與算法之堆與堆排序文本關鍵詞提取算法從搜索算法的技術角度剖析淘寶標題以及關鍵詞數據結構C++ 大根堆——大根堆的應用 php獲取從百度搜索進入網站的關鍵詞數據結構、算法及應用基於Vue實現關鍵詞實時搜索高亮顯示關鍵詞