最近學習了下webmagic,學webmagic是因為想折騰下爬蟲,但是自己學java的,又不想太費功夫,所以webmagic是比較好的選擇了。 寫了幾個demo,源碼流程大致看了一遍。想着把博客園的文章列表爬下來吧。 首頁顯示的就是第一頁文章的列表, 但是翻頁按鈕不是鏈接,而是動態 ...
本博客園所有ASP.NET MVC文章演示的源代碼,最近更新列表: ASP.NET MVC文章附加有源碼下載的文章 http: www.cnblogs.com insus p .html 大半年過去了,很多網友想索引最新的源代碼。下面Insus.NET整理了一下,你可以下載了。從上面的鏈接中可以看最后日期是 ,從這到今天這段時間內,ASP.NET MVC博文源程序可以從下面的鏈接下載。當然,任一源 ...
2015-12-10 16:51 2 1845 推薦指數:
最近學習了下webmagic,學webmagic是因為想折騰下爬蟲,但是自己學java的,又不想太費功夫,所以webmagic是比較好的選擇了。 寫了幾個demo,源碼流程大致看了一遍。想着把博客園的文章列表爬下來吧。 首頁顯示的就是第一頁文章的列表, 但是翻頁按鈕不是鏈接,而是動態 ...
初學Python,用python寫的一個簡單爬蟲,爬取自己博客園上面的所有文章。 爬取后的網頁會保存在項目的根目錄下,暫時未支持js、css等文件的爬取,所以頁面顯示效果會比較差。 ...
首先,在items.py中定義幾個字段用來保存網頁數據(網址,標題,網頁源碼) 如下所示: 最重要的是我們的spider,我們這里的spider繼承自CrawlSpider,方便我們定義正則來提示爬蟲需要抓取哪些頁面。 如:爬去下一頁,爬去各個文章 在spdier中,我們使用 ...
由於顯示效果並不理想,現已棄用,新的博客是基於LessIsMore模板定制而來。 0x01 效果展示 先給大家看一下最終的實現效果,如果你覺的還可以,那么請繼續閱讀。 在此首先要感謝marvin和asxinyu,我這次目錄的實現基本是結合了他們二人的成果,在此特別致謝。下面 ...
博客園上傳markdown格式文章 一、首先下載腳本文件 [ ] 需要電腦內置python3 功能很香!!! git clone git@github.com:dongfanger/pycnblog.git 或者直接手動下載:下載地址 安裝一個第三方庫,cmd命令行安裝即可 ...
最近在開發一個博客系統,經常把寫的東西放在自己網站的博客上(之前寫在Onenote),然后我在博客園也申請了一個博客,就有了同樣一篇文章,我需要復制粘貼排版分別提交兩次的情況。於是我就想能不能在我的網站內提交后直接把這篇文章同步提交至博客園甚至是其他第三方博客呢,所以花點時間實現了這個功能 ...
有小伙伴問到方格背景的問題,所以寫一篇文章記錄我的博客園文章背景是如何制作的。 一、輔助網站1. 一鍵排版2. 代碼主題3. 復制二、 圖床設置 一、輔助網站 輔助網址:Md2All 作者提供了一篇幫助文章:玩轉公眾號Markdown 其實大致看完輔助網址里 ...
了,覺得很高興,說明我寫的文章有價值。 后來很多博客園的朋友在我的文章里留言,說我的文章是抄襲別人的。 ...