一個有趣的現象,既然是知識產出還是有必要聲明下原創最好【蝦扯蛋系列】


原創聲明:作者:Arnold.zhao  博客園地址:https://www.cnblogs.com/zh94 

偶然的一次發現

【    

  1、記錄一下博客園的文章被別的網站爬取后,如何才能在最佳的位置保留原創鏈接的方式

  2、看一下各大網站對所爬取后的文章的處理和玩法;

 

偶然的一次時間Google上搜索一些資料,突然看到了自己曾經在博客園發布過的文章,但是點開后文章內容竟然不是在自己的博客園內,而是在另外一個網站內,此時便突然意識到,喲西,博客園的文章被別的網站爬蟲了;

如下圖所示:來源是一個叫做Python量化投資的網站,過分的是原創的文章鏈接只是在底部輕描淡寫了一個簡單的URL地址,便沒有再說明其它原創的信息,並且底部還有一個“贊賞”的按鈕,這。。尼瑪就有些過分了啊,於是在有些許氣憤之下,開始以自己的博客名為搜索關鍵詞開始了漫漫的檢索之路;;

 

 

以自己的博客園名稱作為Google的搜索的keyword后,發現的第二個網站是一個叫做 “BBSMAX” 的網站,如下圖所示,這個網站也是比較過分的,竟然連原創鏈接都沒有標識,只是在頭部標識了作者名稱“Dearzh”。。。。

 

 

接着在另外一個“ e-learn”的網站上看到了被爬取的第三個文章 ,不過較好的是,該網站的處理方式還是有些細膩的,在文章的底部,單獨以新的style樣式,展示了對應的文章來源,及URL地址信息,如下圖所示:

 

重點來了

 此時在接着進行文章查看時,還是在“bbsmax”上面發現了另外一篇本人的文章,不過不同的是,文章底部給了很明顯的文章出處,如下圖所示:

文章底部給了很明顯的作者名稱,以及文章的原文鏈接。。。。所以,問題來了。為什么都是來自於博客園的文章,按照“BBSMAX”網站的尿性,為何會在這篇文章下保留了

極為明顯的原創地址呢???? 原因只有一個,“BBSMAX”網站在爬取內容后,將原創聲明的標識,按照正文內容的方式進行了收錄,而並沒有當做標識進行刪除;

 

 一般情況下,我們都會使用博客園自帶的默認簽名的方式,來聲明原創鏈接,簡單Chrome F12確認了對應的DOM結構,博客園內的默認簽名都是以<div id="MySignature"/>的方式展示對應的簽名信息,且每次刷新文章后,DOM所對應的ID都是沒有動態變化的,所以對於一般的網站爬蟲來說,在獲取到對應的文章中所有BODY內容后,一般都可以選擇直接remove掉對應的DOM元素即可,這樣原本屬於你的文章,就會被重新定義原創信息;

 

盡管互聯網上無秘密,並且文章從發布開始就是為了幫助更多也存在類似問題的朋友,但當看到博客內容被別人輕易爬取后,還不聲明原創鏈接,這還是有些過分的,所以,為了避免出現這種情況,可以采用如下幾個方案,來重新定義原創鏈接信息:(反爬取就不要想啦,這個必須由博客園的開發同學自己解決才行)

1、在文章的開頭處直接聲明對應的作者信息,如:作者:Arnold.zhao 博客園地址:https://www.cnblogs.com/zh94 (是要在自己的文章開始書寫時進行聲明,而不是采用簽名默認聲明的方式)

2、在文章的結尾處聲明作者信息,但需自己書寫 div 元素標簽進行聲明(總之,目的就是為了避免博客園自身的簽名方式)

3、如果還想使用 博客園的簽名方式做統一的原創聲明,那么也可以申請下博客園的JS權限(獲取JS的權限后,可以每次在加載文章的時候,replice掉對應的ID="MySignature"的元素,將ID更改為隨機的一個 值),通過這種方式,對於部分網站先加載完后,再獲取DOM等結構數據的爬蟲則也是有效的。

 

到此,整個文章想要描述的內容就已經結束了,碼字不易,所以其它博客園的兄弟在寫文章的時候,對於原創聲明的方式,也是的確需要關注一下滴;

 

最后聲明一點,本人對於爬蟲的這種操作其實是並不反感的,畢竟博客園的信息本身就是公開透明可取的,而且更多的內容被其它網站進行收錄后,也的確會增加搜索引擎的權重,可以Help到更多需要幫助的同學,所以,對於Author來講,這是好事;

當我在以博客名進行檢索的時候,看到了以前的一些文章內容被自動轉換為繁體字收錄到其他網站上面時,內心還是有些觸動的,感覺似乎有默默的幫助到港澳台的同胞,這。。。。為祖國統一做了默默的貢獻啊。。。。加油

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM