[C#搜片神器] 之P2P中DHT網絡爬蟲原理

本文轉載自查看原文 2013-07-25 13:20 21424 C#/ DHT/ Kademlia

繼續接着上一篇寫:使用C#實現DHT磁力搜索的BT種子后端管理程序+數據庫設計（開源）[搜片神器]

昨天由於開源的時候沒有注意運行環境,直接沒有考慮下載BT種子文件時生成子文件夾,可能導致有的朋友運行沒有結果,在此表示對支持開源的朋友道謙.另外也對源程序增加了一些說明,已經提交.

開源地址:https://github.com/h31h31/H31DHTMgr

程序下載:H31DHT下載

個人電腦編譯環境是WIN7+VS2005,如果程序運行出錯,請自行下載代碼進行編譯.

先說下運行方法:

1)有固定IP的朋友可以試試H31DHT.exe數據抓取程序,會獲取一些數據,如果>2小時還沒有數據返回,直接說明不是固定IP的返回數據很少;

2)直接從http://torrage.com/sync下載幾個文本文件回來,放到程序目錄下,H31DHTMgr程序會自動遍歷這個文件夾取HASH文件,

存儲到數據庫中,如果將此網站的200多萬數據(個人估計的)全部下載成功,那也可以搜索很多內容了.

3)新程序界面如下:需要的自己下載源代碼進行編譯(VS2005),不提供EXE下載,希望大家感興趣的一起開源下;

[增加了復制磁鏈接和下載選中項目的代碼,之前只能查看,不能顯示.]

--------------------先來點大家感興趣的東西-------------------------------------

大家可能問目前的程序采用什么方法下載BT種子的比較關心,下面就自己的體會給大家說說:

DHT磁力種子其實就是20字節的HASH值,這個值可以直接從很多網站下載種子,舉例子說明:

比如說上一篇文件中有那么多HASH值的字符串,怎么利用呢,比如有個HASH值13ce77b3b934b12dc77fded6646426a6db5c3428,有40位,因為在內存里面占用20位,顯示為16進制所以顯示為40位了;

有這個HASH值,我們可以加上磁頭magnet:?xt=urn:btih: 兩個合在一起就可以下載BT種子了,

當然需要使用BT工具,(magnet:?xt=urn:btih:13ce77b3b934b12dc77fded6646426a6db5c3428)復制試下.

但我們的程序沒有使用BT協議去下載,而是通過別人的網站下載.

比如http://torrage.com/torrent/13ce77b3b934b12dc77fded6646426a6db5c3428.torrent 大家分析組合方式就明白了,

會提示找不到這個種子,那就說明這個網站沒有收集到最新的BT種子.

可以從其它網站下載,大家可以去看下源程序里面的組合方法.

-------------------------下面介紹一些從網上收集的資料信息----------------------------------------------

DHT網絡爬蟲基於DHT網絡構建了一個P2P資源搜索引擎。這個搜索引擎不但可以用於構建DHT網絡中活躍的資源索引（活躍的資源意味着該網絡中肯定有人至少持有該資源的部分數據），還可以分析出該網絡中的熱門分享資源。網絡上其實也有其他人做了類似的應用：DHTmonitoring，Crawling Bittorrent DHT

DHT/Magnet/Torrent

在P2P網絡中，要通過種子文件下載一個資源，需要知道整個P2P網絡中有哪些計算機正在下載/上傳該資源。這里將這些提供某個資源下載的計算機定義為peer。傳統的P2P網絡中，存在一些tracker服務器，這些服務器的作用主要用於跟蹤某個資源有哪些關聯的peer。下載這個資源當然得首先取得這些peer。

DHT的出現用於解決當tracker服務器不可用時，P2P客戶端依然可以取得某個資源的peer。DHT解決這個問題，是因為它將原來tracker上的資源peer信息分散到了整個網絡中。這里將實現了DHT協議的計算機定義為節點(node)。通常一個P2P客戶端程序既是peer也是節點。DHT網絡有多種實現算法，例如Kademlia。

當某個P2P客戶端通過種子文件下載資源時，如果沒有tracker服務器，它就會向DHT網絡查詢這個資源對應的peer列表。資源的標識在DHT網絡中稱為infohash，是一個20字節長的字符串，一般通過sha1算法獲得，也就是一個類似UUID的東西。

實際上，種子文件本身就對應着一個infohash，這個infohash是通過種子文件的文件描述信息動態計算得到。一個種子文件包含了對應資源的描述信息，例如文件名、文件大小等。Magnet，這里指的是磁力鏈接，它是一個類似URL的字符串地址。P2P軟件通過磁力鏈接，會下載到一個種子文件，然后根據該種子文件繼續真實資源的下載。

磁力鏈接中包含的最重要的信息就是infohash。這個infohash一般為40字節或32字節，它其實只是資源infohash（20字節）的一種編碼形式。

Kademlia

各種DHT的實現算法，不論是Chord, Pastry還是Kademlia，其最直接的目標就是以最快的速度來定位到期望的節點，在P2P文件分享應用中則是以最快的速度來查找到正在分享某一文件/種子的peers列表信息。因為每個節點都是分布式存在於地球的任何角落，如果用地理距離來衡量兩節點間的距離則可能給計算帶來極大復雜性甚至不可能進行衡量，因此基本所有的DHT算法都是采用某種邏輯上的距離，在Kademlia則采用簡單的異或計算來衡量兩節點間的距離，它和地理上的距離沒有任何關系，但卻具備幾何公式的絕大特征：

（1）節點和它本身之間的異或距離是0

（2）異或距離是對稱的：即從A到B的異或距離與從B到A的異或距離是等同的

（3）異或距離符合三角形不等式：給定三個頂點A B C，假如AC之間的異或距離最大,那么AC之間的異或距離必小於或等於AB異或距離和BC異或距離之和.

（4）對於給定的一個距離，距離A只存在有唯一的一個節點B，也即單向性，在查找路徑上也是單向的，這個和地理距離不同。

Kademlia中規定所有的節點都具有一個節點ID，該節點ID的產生方法和種子文件中的info hash采用相同算法:即sha-1（安全hash算法），因此每個節點的id，以及每個共享文件/種子的info-hash都是唯一的，並且都是20個字符160bits位組成。兩個節點間的距離就是兩個節點id的異或結果，節點離鍵值（種子）的距離為該節點的id和該種子文件的info-hash的異或結果。Kademlia在異或距離度量的基礎上又把整個DHT網絡拓撲組織成一個二叉前綴樹（XuanWu系統中arp的實現則是一個例子），所有的節點(所有的正在運行的，並且開取了DHT功能的Bt,Btspilits應用)等作為該二叉前綴樹的葉子節點，可以想象這棵二叉樹可以容納多達2¹²⁸個葉子（節點），這足以組織任何規模的網絡了。對於每個節點來說按照離自己的遠近區域又可以把這棵樹划分為160棵子樹，每一個子樹和該節點都有一個共同的前綴，共同前綴越少離得越遠。如下圖所示：

（注意：上圖只是一個划分子樹的例子，節點都沒有位於同一層的葉子上面）

以上圖紅色節點位例0011位例，它可以把其他的節點划分位4棵不同子樹，離自己越近子樹和自己有越長的公共前綴，如果節點是均勻分布則離自己越近的子樹含有的葉子節點更少（兄弟只有一個即和自己有159個共同前綴的那個）。因為節點都位於該樹最底層的葉子位置，水平看上去則所有的葉子都在一條線上，如果把這條線當作2¹²⁸空間的每一個點，則更能體現上面的划分特性（折半拆分）。為了能快速到達這160棵子樹，處於DHT網絡中的每一個節點都記錄了每棵子樹上的k個節點的信息（ip,port,id），在BT中K固定為8，比如上圖中紅色節點就可能保存有最左邊子樹的8個葉子節點信息，當然靠近自己的子樹可能沒有8個葉子，則把所有當前存在的葉子記錄上去，這份記錄信息在Kademlia算法中叫作K桶，也叫作“路由表”，當然這個“路由表”的信息和我們IP路由的含義有點不同，它代表的是為了到達處於距離自己某范圍[ 2ⁱ— 2ⁱ⁺¹ )的節點，可以通過該范圍內的選取的k個節點來進一步定位.

Kademlia是DHT網絡的一種實現。網絡上關於這個算法的文章，主要是圍繞整個DHT網絡的實現原理進行論述。個人覺得這些文章很蛋疼，基本上讀了之后對於要如何去實現一個DHT客戶端還是沒有概念。這里主要可參考P2P中DHT網絡介紹，以及BitTorrent網站上的DHT協議描述

Kad的主要目的是用於查詢某個資源對應的peer列表，而這個peer列表實際上是分散在整個網絡中。網絡中節點數量很大，如果要獲得peer列表，最簡單的做法無非就是依次詢問網絡中的每個節點。這當然不可行。所以在Kad算法中，設立了一個路由表。每一個節點都有一份路由表。這個是按照節點之間的距離關系構建出來的。節點之間的距離當然也有特定的算法定義，在Kad中通過對兩個節點的ID進行異或操作得到。節點的ID和infohash通過相同算法構建，都是20字節長度。節點和infohash之間也有距離關系，實際上表示的是節點和資源的距離關系。

有了這個路由表之后，再通過一個基於距離關系的查找算法，就可以實現不用挨個遍歷就找到特定的節點。而查找資源peer這個操作，正是基於節點查找這個過程。

路由表的實現，按我的理解，有點類似一般的hash表結構。在這個表中有160個桶，稱為K桶，這個桶的數量在實現上可以動態增長。每個桶保存有限個元素，例如K取值為8，指的就是這個桶最多保存8個元素。每個元素就是一個節點，節點包含節點ID、地址信息以及peer信息。這些桶可以通過距離值索引得到，即距離值會經過一個hash算法，使其值落到桶的索引范圍內。

要加入一個DHT網絡，需要首先知道這個網絡中的任意一個節點。如何獲得這個節點？在一些開源的P2P軟件中，會提供一些節點地址，例如transmission中提供的dht.transmissionbt.com:6881。

kademlia的消息：

為了實現上面的“路由表”建立，刷新，獲取peers-list,保存peers-list這些功能，kademlia定義四個最基本的KRPC操作:

（１）ping操作，作用是探測一個節點，用以判斷該節點是否仍然在線。

（２）store操作，作用是通知一個節點存儲一個<key,value>對，以便以后查詢需要。

（３）find_node操作，作用是從自己的“路由表”對應的K桶中返回k個節點信息(IP address,UDP port,Node ID)給發送者

（４）find_value 操作，作用是把info-hash作為參數，如果本操作接收者正好存儲了info-hash的peers則返回peers list，否則從自己的“路由表“中返回離info-hash更近的k個節點信息（同find_node過程）。

上面只是最基本的操作，一次nodes或者info-hash的查找lookup過程則需要節點進行若干次上面的find操作的，一個遞歸查找的過程。利用上面的操作更精確的描述一次一個節點x要查找ID值為t 的節點，過程如下：

1、計算到t 的距離：d(x,y) = x⊕y

2、從x 的第[㏒ d]個K 桶中取出α 個節點的信息（各個實現α值不一樣，有些是3有些則等於k值），同時進行FIND_NODE 操作。如果這個K 桶中的信息少於α 個，則從附近多個桶中選擇距離最

接近d 的總共α個節點。

3、對接受到查詢操作的每個節點，如果發現自己就是t，則回答自己是最接近t 的。否則測量自己和t 的距離，並從自己對應的K 桶中選擇α 個節點的信息給x。

4、 X 對新接受到的每個節點都再次執行FIND_NODE 操作，此過程不斷重復執行，直到

每一個分支都有節點響應自己是最接近t 的，或者說FIND_NODE操作返回的節點值沒有都已經被查找過了，即找不到更近的節點了。

5、通過上述查找操作，x 得到了k 個最接近t 的節點信息。

注意：這里用“最接近”這個說法，是因為ID 值為t 的節點不一定存在網絡中，也就是說t 沒有分配給任何一台電腦。

查找peers-list的過程則換成find_value動作，但注意前文提到的區別即可以有類似的描述。

-----------------------------------------------------------------------------

協議

Kad定義了節點之間的交互協議。這些協議支撐了整個DHT網絡里信息分布式存儲的實現。這些協議都是使用UDP來傳送。其協議格式使用一種稱為bencode的編碼方式來編碼協議數據。bencode是一種文本格式的編碼，它還用於種子文件內的信息編碼。

Kad協議具體格式可參考BitTorrent的定義：DHT Protocol。這些協議包括4種請求：ping，find_node，get_peer，announce_peer。在有些文檔中這些請求的名字會有不同，例如announce_peer又被稱為store，get_peer被稱為find_value。這4種請求中，都會有對應的回應消息。其中最重要的消息是get_peer，其目的在於在網絡中查找某個資源對應的peer列表。

值得一提的是，所有這些請求，包括各種回應，都可以用於處理該消息的節點構建路由表。因為路由表本質就是存儲網絡中的節點信息。

ping

用於確定某個節點是否在線。這個請求主要用於輔助路由表的更新。

find_node

用於查找某個節點，以獲得其地址信息。當某個節點接收到該請求后，如果目標節點不在自己的路由表里，那么就返回離目標節點較近的K個節點。這個消息可用於節點啟動時構建路由表。通過find_node方式構建路由表，其實現方式為向DHT網絡查詢自己。那么，接收該查詢的節點就會一直返回其他節點了列表，查詢者遞歸查詢，直到無法查詢為止。那么，什么時候無法繼續查詢呢？這一點我也不太清楚。每一次查詢得到的都是離目標節點更接近的節點集，那么理論上經過若干次遞歸查詢后，就無法找到離目標節點更近的節點了，因為最近的節點是自己，但自己還未完全加入網絡。這意味着最后所有節點都會返回空的節點集合，這樣就算查詢結束？

實際上，通過find_node來構建路由表，以及順帶加入DHT網絡，這種方式什么時候停止在我看來並不重要。路由表的構建並不需要在啟動時構建完成，在以后與其他節點的交互過程中，路由表本身就會慢慢地得到構建。在初始階段盡可能地通過find_node去與其他節點交互，最大的好處無非就是盡早地讓網絡中的其他節點認識自己。

get_peer

通過資源的infohash獲得資源對應的peer列表。當查詢者獲得資源的peer列表后，它就可以通過這些peer進行資源下載了。收到該請求的節點會在自己的路由表中查找該infohash，如果有收錄，就返回對應的peer列表。如果沒有，則返回離該infohash較近的若干個節點。查詢者若收到的是節點列表，那么就會遞歸查找。這個過程同find_node一樣。

值得注意的是，get_peer的回應消息里會攜帶一個token，該token會用於稍后的announce_peer請求。

announce_peer

該請求主要目的在於通知，通知其他節點自己開始下載某個資源。這個消息用於構建網絡中資源的peer列表。當一個已經加入DHT網絡的P2P客戶端通過種子文件開始下載資源時，首先在網絡中查詢該資源的peer列表，這個過程通過get_peer完成。當某個節點從get_peer返回peer時，查詢者開始下載，然后通過announce_peer告訴返回這個peer的節點。

announce_peer中會攜帶get_peer回應消息里的token。關於這一點，我有一個疑問是，在P2P中DHT網絡介紹文檔中提到：

(announce_peer)同時會把自己的peer信息發送給先前的告訴者和自己K桶中的k個最近的節點存儲該peer-list信息

不管這里提到的K的最近的節點是離自己最近，還是離資源infohash最近的節點，因為處理announce_peer消息時，有一個token的驗證過程。但是這K個節點中，並沒有在之前創建對應的token。我通過transmission中的DHT實現做了個數據收集，可以證明的是，announce_peer消息是不僅僅會發給get_peer的回應者的。

------------------------------------------------------------------------------------

DHT爬蟲

DHT爬蟲是一個遵循Kad協議的假節點程序。

這個爬蟲的實現方式，主要包含以下內容：

通過其他節點的announce_peer發來的infohash確認網絡中有某個資源可被下載
通過從網絡中獲取這個資源的種子文件，來獲得該資源的描述

通過累計收集得到的資源信息，就可以提供一個資源搜索引擎，或者構建資源統計信息。以下進一步描述實現細節。整個爬蟲的實現依賴了一個很重要的信息，那就是資源的infohash實際上就是一個磁力鏈接（當然需要包裝一下數據）。這意味着一旦我們獲得了一個infohash，我們就等於獲得了一個種子。

獲得資源通知

當爬蟲程序加入DHT網絡后，它總會收到其他節點發來的announce_peer消息。announce_peer消息與get_peer消息里都帶了資源的infohash，但是get_peer里的infohash對應的資源在該網絡中不一定存在，即該資源沒有任何可用peer。而announce_peer則表示已經確認了該網絡中有節點正在下載該資源，也即該資源的數據確實存在該網絡中。

所以，爬蟲程序需要盡最大努力地獲取其他節點發來的announce_peer消息。如果announce_peer消息會發送給離消息發送節點較近的節點，那么，一方面，爬蟲程序應該將自己告訴網絡中盡可能多的節點。這可以通過一次完整的find_node操作實現。另一方面，爬蟲程序內部實現可以部署多個DHT節點，總之目的在於盡可能地讓爬蟲程序稱為其他節點的較近者。

當收集到infohash之后，爬蟲程序還需要通過該infohash獲得對應資源的描述信息。

獲取資源信息

獲得資源描述信息，其實就是通過infohash獲得對應的種子文件。這需要實現P2P協議里的文件分享協議。種子文件的獲取其實就是一個文件下載過程，下載到種子文件之后，就可以獲取到資源描述。這個過程一種簡單的方法，就是從infohash構建出一個磁力鏈接，然后交給一個支持磁力下載的程序下載種子。

從infohash構建出磁力鏈接非常簡單，只需要將infohash編碼成磁力鏈接的xt字段即可，構建實現可以從transmission源碼里找到.

現在你就可以做一個實驗，在transmission的DHT實現中，在announce_peer消息的處理代碼中，將收到的infohash通過上面的appendMagnet轉換為磁力鏈接輸出到日志文件里。然后，可以通過支持磁力鏈接的程序（例如QQ旋風）直接下載。有趣的是，當QQ旋風開始下載該磁力鏈接對應的種子文件時，你自己的測試程序能收到QQ旋風程序發出的announce_peer消息。當然，你得想辦法讓這個測試程序盡可能地讓其他節點知道你，這可以通過很多方式實現。

UPDATE

通過詳細閱讀transmission里的DHT實現，一些之前的疑惑隨之解開。

announce_peer會發給哪些節點

在一次對infohash的查詢過程中，所有對本節點發出的get_peer作出回應的節點（不論這個回應節點回應的是nodes還是peers），當本節點取得peer信息時，就會對所有這些節點發出announce_peer。get_peer的回應消息里，不論是peer還是node，都會攜帶一個token，這樣在將來收到對方的announce_peer時，就可以驗證該token。

節點和bucket狀態

在本地的路由表中，保存的node是有狀態之分的。狀態分為三種：good/dubious/bad。good節點基本可以斷定該節點是一個在線的並且可以正常回應消息的節點；而bad節點則是可確定的無效節點，通常會盡快從路由表中移除；而dubious則是介於good和bad節點之間，表示可能有問題的節點，需要進一步發送例如ping消息來確認其狀態。路由表中應該盡可能保證保存的是good節點，對查詢消息的回應里也需攜帶好的節點。

bucket也是有狀態的，當一個bucket中的所有節點在一定時間之內都沒有任何活動的時候，該bucket則應該考慮進行狀態的確認，確認方式可以隨機選擇該bucket中的節點進行find_node操作（這也是find_node除了用於啟動之外的唯一作用，但具體實現不見得使用這種方式）。沒有消息來往的bucket則應該考慮移除。DHT中幾乎所有操作都會涉及到bucket的索引，如果索引到一個所有節點都有問題的bucket，那么該操作可能就無法完成。

search在何時停止

首先，某次發起的search，無論是對node還是對peer，都可能導致進一步產生若干個search。這些search都是基於transaction id來標識的。由一次search導致產生的所有子search都擁有相同的transaction id，以使得在該search成功或失敗時可以通過該transaction id來刪除對應的所有search。transaction id也就是DHT中每個消息消息頭”t”的值。

但是search何時停止？transmission中是通過超時機制來停止。在search過程中，如果長時間沒有收到跟該search關聯的節點發來的回應消息，那么就撤銷該search，表示搜索失敗。

參考資料

---------------------------------------------------------

再告訴大家一個神奇的方法

有了HASH值可以去試下是否可以播放等功能,輸入magnet:?xt=urn:btih:13ce77b3b934b12dc77fded6646426a6db5c3428就可以播放了;

另外求服務器進行程序測試,需要有固定IP,10G的WIN服務器空間,h31h31@163.com,謝謝.

ps:本人開源程序的目的只是大家交流,如果有什么違法的行為與本人無關.

希望大家多多推薦哦...大家的推薦才是下一篇介紹的動力...

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 [搜片神器]之DHT網絡爬蟲的代碼實現方法 [搜片神器]之DHT網絡爬蟲的C++程序初步開源 [C# 網絡編程系列]專題八：P2P編程 [C# 網絡編程系列]專題八：P2P編程 P2P網絡 [搜片神器]直接從DHT網絡下載BT種子的方法 [搜片神器]直接從DHT網絡下載BT種子的方法 P2P原理（轉） p2p網絡攝像頭的工作原理 P2P通信原理與實現(C++)