Hashing
適用范圍:快速查找,刪除的基本數據結構,通常需要總數據量可以放入內存
基本原理及要點: hash函數選擇,針對字符串,整數,排列,具體相應的hash方法。
碰撞處理,一種是open hashing,也稱為拉鏈法;另一種就是closed hashing,也稱開地址法,opened addressing。
數組的特點是:尋址容易,插入和刪除困難;而鏈表的特點是:尋址困難,插入和刪除容易。那么我們能不能綜合兩者的特性,做出一種尋址容易,插入刪除也容易的數據結構?答案是肯定的,這就是我們要提起的哈希表,哈希表有多種不同的實現方法,最常用的一種方法——拉鏈法,我們可以理解為“鏈表的數組”
bit-map
適用范圍:可進行數據的快速查找,判重,刪除,一般來說數據范圍是int的10倍以下
基本原理及要點:使用bit數組來表示某些元素是否存在,比如8位電話號碼
擴展:bloom filter可以看做是對bit-map的擴展
雙層桶划分
事實上,與其說雙層桶划分是一種數據結構,不如說它是一種算法設計思想。面對一堆大量的數據我們無法處理的時候,我們可以將其分成一個個小的單元,然后根據一定的策略來處理這些小單元,從而達到目的。
適用范圍:第k大,中位數,不重復或重復的數字
基本原理及要點:因為元素范圍很大,不能利用直接尋址表,所以通過多次划分,逐步確定范圍,然后最后在一個可以接受的范圍內進行, 分治才是其根本。
問題實例:
堆
適用范圍:海量數據前n大,並且n比較小,堆可以放入內存 (適合大數據量,求前n小,n的大小比較小的情況,這樣可以掃描一遍即可得到所有的前n元素,效率很高)
擴展:雙堆,一個最大堆與一個最小堆結合,可以用來維護中位數。
問題實例: 100w個數中找最大的前100個數。
倒排索引(Inverted index)
適用范圍:搜索引擎,關鍵字查詢
基本原理及要點:為何叫倒排索引?一種索引方法,被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中的存儲位置的映射。
以英文為例,下面是要被索引的文本:
T0 = "it is what it is"
T1 = "what is it"
T2 = "it is a banana"
我們就能得到下面的反向文件索引:
"a": {2}
"banana": {2}
"is": {0, 1, 2}
"it": {0, 1, 2}
"what": {0, 1}
檢索的條件"what", "is" 和 "it" 將對應集合的交集。
正向索引開發出來用來存儲每個文檔的單詞的列表。正向索引的查詢往往滿足每個文檔有序頻繁的全文查詢和每個單詞在校驗文檔中的驗證這樣的查詢。在正向索引中,文檔占據了中心的位置,每個文檔指向了一個它所包含的索引項的序列。也就是說文檔指向了它包含的那些單詞,而反向索引則是單詞指向了包含它的文檔,很容易看到這個反向的關系。
問題實例:文檔檢索系統,查詢那些文件包含了某單詞,比如常見的學術論文的關鍵字搜索。
1. 分而治之/hash映射 + hash統計 + 堆/快速/歸並排序;
2. 雙層桶划分
3. Bloom filter/Bitmap;
4. Trie樹/數據庫/倒排索引;
5. 外排序;
6. 分布式處理之Hadoop/Mapreduce。
分而治之/Hash映射 + Hash統計 + 堆/快速/歸並排序
1、海量日志數據,提取出某日訪問百度次數最多的那個IP。
IP是32位的,最多有個2^32個IP。同樣可以采用映射的方法,比如模1000,把整個大文件映射為1000個小文件,再找出每個小文中出現頻率最大的IP(可以采用hash_map進行頻率統計,然后再找出頻率最大的幾個)及相應的頻率。然后再在這1000個最大的IP中,找出那個頻率最大的IP,即為所求。
2、搜索引擎會通過日志文件把用戶每次檢索使用的所有檢索串都記錄下來,每個查詢串的長度為1-255字節。
假設目前有一千萬個記錄(這些查詢串的重復度比較高,雖然總數是1千萬,但如果除去重復后,不超過3百萬個。一個查詢串的重復度越高,說明查詢它的用戶越多,也就是越熱門。),請你統計最熱門的10個查詢串,要求使用的內存不能超過1G。
第一步借用hash統計進行預處理: 先對這批海量數據預處理(維護一個Key為Query字串,Value為該Query出現次數,即Hashmap(Query,Value),每次讀取一個Query,如果該字串不在Table中,那么加入該字串,並且將Value值設為1;如果該字串在Table中,那么將該字串的計數加一即可。最終我們在O(N)(N為1千萬,因為要遍歷整個數組一遍才能統計處每個query出現的次數)的時間復雜度內用Hash表完成了統計;
第二步借用堆排序找出最熱門的10個查詢串:時間復雜度為N'*logK。維護一個K(該題目中是10)大小的小根堆,然后遍歷3百萬個Query,分別和根元素進行對比(對比value的值),找出10個value值最大的query
最終的時間復雜度是:O(N) + N'*O(logK),(N為1000萬,N’為300萬)
或者:采用trie樹,關鍵字域存該查詢串出現的次數,沒有出現為0。最后用10個元素的最小推來對出現頻率進行排序。
3、有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16字節,內存限制大小是1M。返回頻數最高的100個詞。
第一步分而治之/hash映射到順序讀文件中,對於每個詞x,取hash(x)%5000,然后按照該值存到5000個小文件(記為x0,x1,...x4999)中。這樣每個文件大概是200k左右。如果其中的有的文件超過了1M大小,還可以按照類似的方法繼續往下分,直到分解得到的小文件的大小都不超過1M。
第二步hash統計對每個小文件,統計每個文件中出現的詞以及相應的頻率(可以采用trie樹/hash_map等),並取出出現頻率最大的100個詞(可以用含100個結點的最小堆),並把100個詞及相應的頻率存入文件,這樣又得到了5000個文件。
第三步堆/歸並排序就是把這5000個文件進行歸並(也可以采用堆排序)的過程了。(如果內存允許可以將這5000個文件中的所有元素合並起來,利用堆獲得top 100)
4、 給定a、b兩個文件,各存放50億個url,每個url各占64字節,內存限制是4G,讓你找出a、b文件共同的url?
可以估計每個文件安的大小為5G×64=320G,遠遠大於內存限制的4G。所以不可能將其完全加載到內存中處理。考慮采取分而治之的方法。
遍歷文件a,對每個url求取hash(url)%1000,然后根據所取得的值將url分別存儲到1000個小文件(記為a0,a1,...,a999)中。這樣每個小文件的大約為300M。
遍歷文件b,采取和a相同的方式將url分別存儲到1000小文件(記為b0,b1,...,b999)。這樣處理后,所有可能相同的url都在對應的小文件(a0vsb0,a1vsb1,...,a999vsb999)中,不對應的小文件不可能有相同的url。然后我們只要求出1000對小文件中相同的url即可。
求每對小文件中相同的url時,可以把其中一個小文件的url存儲到hash_set中。然后遍歷另一個小文件的每個url,看其是否在剛才構建的hash_set中,如果是,那么就是共同的url,存到文件里面就可以了。
位圖存儲(bitmap)
1. 已知某個文件內包含一些電話號碼,每個號碼為8位數字,統計不同號碼的個數(共有都少個不同的號碼)。
8位最多99 999 999(0-99 999 999共1億個數),每個數字對應一個Bit位,所以只需要99MBit==1.2MBytes,這樣,就用了小小的1.2M左右的內存表示了所有的8位數的電話)
2. 2.5億個整數(int)中找出不重復的整數的個數,內存足夠大。
將bit-map擴展一下,用2bit表示一個數即可,0表示未出現,1表示出現一次,2表示出現2次及以上。或者我們不用2bit來進行表示,我們用兩個bit-map即可模擬實現這個2bit-map。 (每個整數用兩位,存儲所有的整數需要2^32*2=1GB的內存)
3. 2.5億個整數中找出不重復的整數的個數,內存空間不足以容納這2.5億個整數。
整數個數為2^32,我們可以將這2^32個數,划分為2^8個區域(比如用單個文件代表一個區域),然后將數據分離到不同的區域,然后不同的區域在利用bitmap(占用4MB,內存可以存下)就可以直接解決了。也就是說只要有足夠的磁盤空間,就可以很方便的解決。
4. 5億個int找它們的中位數 (指將統計總體當中的各個變量值按大小順序排列起來,形成一個數列,處於變量數列中間位置的變量值就稱為中位數)
首先我們將int划分為2^16個區域(肯定是按大小的),然后讀取數據統計落到各個區域里的數的個數,之后我們根據統計結果就可以判斷中位數落到那個區域,同時知道這個區域中的第幾大數剛好是中位數。 然后第二次掃描我們只統計落在這個區域中的那些數就可以了。
5. 騰訊面試題:給40億個不重復的unsigned int的整數,沒排過序的,然后再給一個數,如何快速判斷這個數是否在那40億個數當中?
方案1:申請512M的內存(2^32/8=512MB),一個bit位代表一個unsigned int值。讀入40億個數,設置相應的bit位,讀入要查詢的數,查看相應bit位是否為1,為1表示存在,為0表示不存在。
方案2:因為2^32為40億多,所以給定一個數可能在,也可能不在其中;這里我們把40億個數中的每一個用32位的二進制來表示假設這40億個數開始放在一個文件中。
然后將這40億個數分成兩類: 1. 最高位為0 2. 最高位為1
並將這兩類分別寫入到兩個文件中,其中一個文件中數的個數<=20億,而另一個>=20億(這相當於折半了);與要查找的數的最高位比較並接着進入相應的文件再查找
再然后把這個文件為又分成兩類: 1.次最高位為0 2.次最高位為1
並將這兩類分別寫入到兩個文件中,其中一個文件中數的個數<=10億,而另一個>=10億(這相當於折半了); 與要查找的數的次最高位比較並接着進入相應的文件再查找。 ....... 以此類推,就可以找到了,而且時間復雜度為O(logn)。
IaaS SaaS PaaS
發現有端口接入時,置為“未授權”,發送廣播
接收廣播,回復應答
確定接下來使用的類型
客戶機發送信息給交換機,交換機發送認證信息給認證服務器,判斷是否授權
定義了建立連接的過程
在客戶和服務器傳送應用層數據之前,完成諸如加密算法和會話秘鑰的確定、通信雙方的身份驗證
定義了傳輸數據的方式
物理層:物理端口、子接口、PVC接口數據鏈路層:MAC \cos\MPLS EXP網絡層:IP地址、DSCP值、IP 優先級傳輸層:UDP TCP端口號會話層以上:業務數據標簽,如URL
二層標記:cos class of service 服務等級三層標記:class selector
實時數據:打上EF標簽,放入優先隊列中,不要超過帶寬的三分之一EF和AF數據:不要超過整體的三分之二靠近源頭限流:如果要限制優先級低的流量,靠近他的網絡源頭,以免浪費過多的帶寬
CRM客戶關系管理,電子郵件,虛擬桌面,統一通信,在線游戲
數據庫,開發工具,web服務器,軟件運行環境
虛擬機,服務器,存儲空間,網絡帶寬,安全防護