純真版IP數據庫,優點是記錄多,查詢速度快,它只用一個文件QQWry.dat就包含了所有記錄,方便嵌入到其他程序中,也方便升級。缺點是你想要編輯它卻是比較麻煩的,由於其文件格式的限制,你要直接添加IP記錄就不容易了
基本結構
QQWry.dat 文件在結構上分為3塊:文件頭,記錄區,索引區。一般我們要查找IP時,先在索引區查找記錄偏移,然后再到記錄區讀出信息。由於記錄區的記錄是不定長的, 所以直接在記錄區中搜索是不可能的。由於記錄數比較多,如果我們遍歷索引區也會是有點慢的,一般來說,我們可以用二分查找法搜索索引區,其速度比遍歷索引 區快若干數量級。圖1是QQWry.dat的文件結構圖。

圖1. QQWry.dat文件結構
要注意的是,QQWry.dat里面全部采用了little-endian字節序
一. 了解文件頭
QQWry.dat的文件頭只有8個字節,其結構非常簡單,首四個字節是第一條索引的絕對偏移,后四個字節是最后一條索引的絕對偏移。
二. 了解記錄區
每 條IP記錄都由國家和地區名組成,國家地區在這里並不是太確切,因為可能會查出來“清華大學計算機系”之類的,這里清華大學就成了國家名了,所以這個國家 地區名和IP數據庫制作的時候有關系。所以記錄的格式有點像QName,有一個全局部分和局部部分組成,我們這里還是沿用國家名和地區名的說法。
於 是我們想象着一條記錄的格式應該是: [IP地址][國家名][地區名],當然,這個沒有什么問題,但是這只是最簡單的情況。很顯然,國家名和地區名可能會有很多的重復,如果每條記錄都保存一 個完整的名稱拷貝是非常不理想的,所以我們就需要重定向以節省空間。所以為了得到一個國家名或者地區名,我們就有了兩個可能:第一就是直接的字符串表示的 國家名,第二就是一個4字節的結構,第一個字節表明了重定向的模式,后面3個字節是國家名或者地區名的實際偏移位置。對於國家名來說,情況還可能更復雜 些,因為這樣的重定向最多可能有兩次。
那么什么是重定向模式?根據上面所說,一條記錄的格式是[IP地址][國家記錄][地區記錄],如果國家記錄是重定向的話,那么地區記錄是有可能沒有的,於是就有了兩種情況,我管他叫做模式1和模式2。我們對這些格式的情況舉圖說明:

圖2. IP記錄的最簡單形式
圖2表示了最簡單的IP記錄格式,我想沒有什么可以解釋的

圖3. 重定向模式1
圖3演示了重定向模式1的情況。我們看到在模式1的情況下,地區記錄也跟着國家記錄走了,在IP地址之后只剩下了國家記錄的4字節,后面3個字節構成了一個指針,指向了實際的國家名,然后又跟着地址名。模式1的標識字節是0x01。

圖4. 重定向模式2
圖 4演示了重定向模式2的情況。我們看到了在模式2的情況下(其標識字節是0x02),地區記錄沒有跟着國家記錄走,因此在國家記錄之后4個字節之后還是有 地區記錄。我想你已經明白了模式1和模式2的區別,即:模式1的國家記錄后面不會再有地區記錄,模式2的國家記錄后會有地區記錄。下面我們來看一下更復雜 的情況。

圖5. 混和情況1
圖 5演示了當國家記錄為模式1的時候可能出現的更復雜情況,在這種情況下,重定向指向的位置仍然是個重定向,不過第二次重定向為模式2。大家不用擔心,沒有 模式3了,這個重定向也最多只有兩次,並且如果發生了第二次重定向,則其一定為模式2,而且這種情況只會發生在國家記錄上,對於地區記錄,模式1和模式2 是一樣的,地區記錄也不會發生2次重定向。不過,這個圖還可以更復雜,如圖7:

圖6. 混和情況2
圖6是模式1下最復雜的混和情況,不過我想應該也很好理解,只不過地區記錄也來重定向而已,有一點我要提醒你,如果重定向的地址是0,則表示未知的地區名。
所 以我們總結如下:一條IP記錄由[IP地址][國家記錄][地區記錄]組成,對於國家記錄,可以有三種表示方式:字符串形式,重定向模式1和重定向模式 2。對於地區記錄,可以有兩種表示方式:字符串形式和重定向,另外有一條規則:重定向模式1的國家記錄后不能跟地區記錄。按照這個總結,在這些方式中合理 組合,就構成了IP記錄的所有可能情況。
設計的理由
在我們繼續去了解索引區的結構之前,我們先來了解一下為何記錄區的結構要如此設 計。我想你可能想到了答案:字符串重用。沒錯,在這種結構下,對於一個國家名和地區名,我只需要保存其一次就可以了。我們舉例說明,為了表示方便,我們用 小寫字母代表IP記錄,C表示國家名,A表示地區名:
有兩條記錄a(C1, A1), b(C2, A2),如果C1 = C2, A1 = A2,那么我們就可以使用圖3顯示的結構來實現重用
有三條記錄a(C1, A1), b(C2, A2), c(C3, A3),如果C1 = C2, A2 = A3,現在我們想存儲記錄b,那么我們可以用圖6的結構來實現重用
有兩條記錄a(C1, A1), b(C2, A2),如果C1 = C2,現在我們想存儲記錄b,那么我們可以采用模式2表示C2,用字符串表示A2
你可以舉出更多的情況,你也會發現在這種結構下,不同的字符串只需要存儲一次。
了解索引區
在"了解文件頭"部分,我們說明了文件頭實際上是兩個指針,分別指向了第一條索引和最后一條索引的絕對偏移。如圖8所示:

圖8. 文件頭指向索引區圖示
實 在是很簡單,不是嗎?從文件頭你就可以定位到索引區,然后你就可以開始搜索IP了!每條索引長度為7個字節,前4個字節是起始IP地址,后三個字節就指向 了IP記錄。這里有些概念需要說明一下,什么是起始IP,那么有沒有結束IP? 假設有這么一條記錄:166.111.0.0 - 166.111.255.255,那么166.111.0.0就是起始IP,166.111.255.255就是結束IP,結束IP就是IP記錄中的那頭 4個字節,這下你應該就清楚了吧。於是乎,每條索引配合一條記錄,構成了一個IP范圍,如果你要查找166.111.138.138所在的位置,你就會發 現166.111.138.138落在了166.111.0.0 - 166.111.255.255 這個范圍內,那么你就可以順着這條索引去讀取國家和地區名了。那么我們給出一個最詳細的圖解吧:

圖9. 文件詳細結構
現 在一切都清楚了是不是?也許還有一點你不清楚,QQWry.dat的版本信息存在哪里呢? 答案是:最后一條IP記錄實際上就是版本信息,最后一條記錄顯示出來就是這樣:255.255.255.0 255.255.255.255 純真網絡 2004年6月25日IP數據。OK,到現在你應該全部清楚了。
PHP Demo 不記得demo出處了
<?php class IP { var $fh; //IP數據庫文件句柄 var $first; //第一條索引 var $last; //最后一條索引 var $total; //索引總數 //構造函數 function __construct(){ $this->fh = fopen('./qqwry.dat', 'rb'); //qqwry.dat文件 $this->first = $this->getLong4(); $this->last = $this->getLong4(); $this->total = ($this->last - $this->first) / 7; //每條索引7字節 } //檢查IP合法性 function checkIp($ip){ $arr = explode('.', $ip); if( count($arr) !=4 ){ return false; } else{ for( $i=0; $i<4; $i++){ if( $arr[$i] <'0' || $arr[$i] > '255' ) { return false; } } } return true; } function getLong4(){ //讀取little-endian編碼的4個字節轉化為長整型數 $result = unpack('Vlong', fread($this->fh, 4)); return $result['long']; } function getLong3() { //讀取little-endian編碼的3個字節轉化為長整型數 $result = unpack('Vlong', fread($this->fh, 3).chr(0)); return $result['long']; } //查詢信息 function getInfo($data = "") { $char = fread($this->fh, 1); while( ord($char) != 0) { //國家地區信息以0結束 $data .= $char; $char = fread($this->fh, 1); } return $data; } //查詢地區信息 function getArea() { $byte = fread($this->fh, 1); //標志字節 switch (ord($byte)) { case 0: $area = ''; break; //沒有地區信息 case 1: //地區被重定向 fseek($this->fh, $this->getLong3()); $area = $this->getInfo(); break; case 2: //地區被重定向 fseek($this->fh, $this->getLong3()); $area = $this->getInfo(); break; default: $area = $this->getInfo($byte); break; //地區沒有被重定向 } return $area; } function ip2addr($ip) { if( !$this->checkIp($ip) ){ return false; } $ip = pack('N', intval(ip2long($ip)) ); //二分查找 $l = 0; $r = $this->total; while($l <= $r) { $m = floor(($l + $r) / 2); //計算中間索引 fseek($this->fh, $this->first + $m * 7); $beginip = strrev(fread($this->fh, 4)); //中間索引的開始IP地址 fseek($this->fh, $this->getLong3()); $endip = strrev(fread($this->fh, 4)); //中間索引的結束IP地址 if( $ip < $beginip) { //用戶的IP小於中間索引的開始IP地址時 $r = $m - 1; } else{ if( $ip > $endip) { //用戶的IP大於中間索引的結束IP地址時 $l = $m + 1; } else{ //用戶IP在中間索引的IP范圍內時 $findip = $this->first + $m * 7; break; } } } //查詢國家地區信息 fseek($this->fh, $findip); $location['beginip'] = long2ip($this->getLong4()); //用戶IP所在范圍的開始地址 $offset = $this->getlong3(); fseek($this->fh, $offset); $location['endip'] = long2ip($this->getLong4()); //用戶IP所在范圍的結束地址 $byte = fread($this->fh, 1); //標志字節 switch( ord($byte) ){ case 1: //國家和區域信息都被重定向 $countryOffset = $this->getLong3(); //重定向地址 fseek($this->fh, $countryOffset); $byte = fread($this->fh, 1); //標志字節 switch( ord($byte) ){ case 2: //國家信息被二次重定向 fseek($this->fh, $this->getLong3()); $location['country'] = $this->getInfo(); fseek($this->fh, $countryOffset + 4); $location['area'] = $this->getArea(); break; default: //國家信息沒有被二次重定向 $location['country'] = $this->getInfo($byte); $location['area'] = $this->getArea(); break; } break; case 2: //國家信息被重定向 fseek($this->fh, $this->getLong3()); $location['country'] = $this->getInfo(); fseek($this->fh, $offset + 8); $location['area'] = $this->getArea(); break; default: //國家信息沒有被重定向 $location['country'] = $this->getInfo($byte); $location['area'] = $this->getArea(); break; } //gb2312 to utf-8(去除無信息時顯示的CZ88.NET) foreach ($location as $k => $v) { $location[$k] = str_replace('CZ88.NET', '', iconv('gb2312', 'utf-8', $v)); } return $location; } //析構函數 function __destruct() { fclose($this->fh); } } $ip = new IP(); $addr = $ip->ip2addr('113.247.15.120'); print_r($addr);