相信不少博主都習慣了各種爬蟲,各種采集了吧。前些時間好像有個朋友在抱怨博客園怎么沒有對我們知識結晶進行保護。
其實采集就采集吧,不加作者信息也就算了,最可惡的是不保留作者信息。
好吧,不扯蛋了,我們進入正題。
我測試過多種方法,比如在開頭加上隱藏的作者信息,或者原文鏈接等等方法。
可是機器人也不是吃素的,現在好多機器人都會過濾我們的 a 標簽,過濾 js 就更不用說了。
經過多次嘗試分析,發現他們采集內容后,都重新整理,比 img 重新提取 src 地址,然后替換會原處,這樣我們在 img 上加什么都沒用。
昨天,我在《阻止函數源碼在控制台輸出》一文里加入了一個隱藏的圖片,然后等爬蟲來抓。
<img class="nop" src="http://image.gamersky.com/error/404.jpg" >
.nop { display: none; }
今天我去搜索這篇文章,發現大部分都是顯示了那張隱藏的圖片。
就像這樣,一打開看到的就是 404 的圖片。
當然這個算比較客氣的。。
所以我們就利用隱藏圖片進行反擊吧。
最狠的是我們群里的一個兄弟,說發黃圖,然后去舉報他們,這招夠陰險。
不過這個對自己應該也有影響。
搜索引擎爬我們站的時候,隱藏節點他也能抓到的,所以還是別冒險。
我們可以搞個自己的版權聲明圖片讓他們抓。
具體什么內容,就發揮大家自己的想象吧。
好了,今天就分享這點小東西吧。