思路: 1.找到一個頁面 2.正則過濾所有的img 3.正則過濾出所有的src的屬性 4.獲取鏈接信息,寫入文件 file_get_contents(), file_put_contents() 5.在cli模式下運行代碼(瀏覽器運行可能內存爆掉,或運行超時) 代碼 ...
思路: 1.找到一個頁面 2.正則過濾所有的img 3.正則過濾出所有的src的屬性 4.獲取鏈接信息,寫入文件 file_get_contents(), file_put_contents() 5.在cli模式下運行代碼(瀏覽器運行可能內存爆掉,或運行超時) 代碼 ...
前言:寫這篇文章之前,主要是我看了幾篇類似的爬蟲寫法,有的是用的隊列來寫,感覺不是很直觀,還有的只有一個請求然后進行頁面解析,根本就沒有自動爬起來這也叫爬蟲?因此我結合自己的思路寫了一下簡單的爬蟲,測試用例就是自動抓取我的博客網站(http://www.zifangsky.cn)的所有鏈接 ...
我用java爬蟲爬了一個圖片網站 最近想建立個網站,不想搞技術博客之類的網站了,因為像博客園還有CSDN這種足夠了。平時的問題也都是這些記錄一下就夠了。那搞個什么網站好玩呢? 看到一個圖片網站還不錯,里面好多圖片(當然有xxx圖片了....)哈哈,其實就是閑的,同時也介紹一下java爬蟲的相關 ...
package com.blue.common.util;import java.util.ArrayList;import java.util.HashSet;import java.util.List;import java.util.Set;import ...
測試case,就是把Commons-FileUpload 的API下載來 上網查的時候我才發現這是一個由很多頁面組成的網站,下載起來很麻煩。 怎么辦呢?呵呵,一定是有辦法的。Teleport Ultra這個工具就能幫我們搞定! 這是 ...
1 前記 這次記錄的這些東西,主要是自己在搭建個人網站的時候遇到的一些問題記錄,不算嚴格意義上的教程和使用說明。按照目前自己的web水平,去寫這方面的教程無疑是誤人子弟。因為自己雖然做程序員很多年,但是一直偏重於底層操作系統,驅動及算法的研究。web一直沒有怎么玩過,直到最近自己有項目需要 ...
1.這是jsp頁面中的關於圖片的那段代碼 src="images/tj1.png " id="tj1"></img> 2.跳轉的方法有很多種我使用的是用jquery給它綁定一個click事件來進行跳轉的 $(document).ready ...