一鍵構造你的博客目錄


最近看了一下吳軍的數學之美。書很好,廢話我就不多少了。看了第9章圖論和網絡爬蟲,一直都覺得網絡爬蟲很牛B,搜索引擎不就是用爬蟲爬網頁的嗎,於是想寫一個簡單的爬蟲來爬網頁試試,最先想到的就是給自己的博客建一個目錄,夠小夠簡單了吧,於是就有了這篇文章,簡單的分享一下,先申明我的實現很簡單沒有技術含量,在看下文之前可以先看看 我的博客目錄。              源碼必共享

簡單介紹一下網絡爬蟲的原理:給你一個網頁地址,先把這個網頁下載下來,然后分析這個網頁的內容,得到這個網頁中的所有鏈接,然后下載這些網頁,繼續分析下載。這樣就能下載互聯網上的很多網頁。原理就這么簡單,實現起來就不那么容易了。由於深入不了只能說簡單的。

構造我的博客目錄思路簡單分析。獲得你的所有文章的地址及標題,然后將這些文章分類。你的文章其實是已經分類好了的,只用得到你的文章的所有分類,然后根據分類得到所有分類下的文章,就可以得到你所有的文章及其分類,構造你的博客目錄就容易了。

被否定了的思路一:隨便拿到我的一篇文章的地址,下載這篇文章,然后分析這個地址,得到這篇文章里面的所有鏈接,按照一定的規則得到我的文章地址,即排除無用的連接,然后以爬蟲的思路得到我的所有文章,由於每篇文章都有它的分類,所以很快就能構造我的博客目錄了。然而由於博客園的實現不是我想的那樣,在下載一篇文章的時候,沒有下面的內容,因為下面的內容就像一個雙向鏈表一樣將我的所有文章連接起來了,我只要知道一篇文章的地址,通過這個”雙向鏈表“我就能得到我的所有文章了,可就是下載網頁里偏偏沒有下面的內容,於是這個最接近爬蟲的方法被PASS掉了。 

被否定了的思路二。每個人的文章都是分頁顯示的,我就可以下載這些內容,然后就可以得到我的所有文章,可還是有個問題,跟上面一樣的原因,妹的,下載的網頁中沒有文章的分類,得到了所有的文章,卻不知道文章的分類,叫我怎么構造目錄啊。於是又被PASS掉了。

 

要構造我的博客目錄,這么簡單的需求方法當然是很多的了,於是用了個不太想爬蟲的方法。就是上面所說的,得到所有文章的分類,下載每個分類下的文章,構造博客目錄。獲得我的博客分類的方法很簡單,如獲取我的文章分類方法如下:

請求這個地址:http://www.cnblogs.com/hlxs/mvc/blog/sidecolumn.aspx

傳入參數blogApp=hlxs;(hlxs是我在博客園的ID)

這樣就得到了我文章的所有分類,然后按照分類得到分類下的所有文章,在構造博客目錄就簡單了。在這個過程中只要知道某人在博客園的ID就能構造它的博客目錄,我說一鍵構造你的博客目錄不為過吧。

如果你也想構造你的博客目錄,可以先看看我的博客目錄,構造你的博客目錄很簡單,運行程序,輸入你的博客園ID,會自動生成一個”我的博客目錄.txt”,將文件的內容以源碼的方式發表就行。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM