網絡爬蟲道德的話:客戶授權or爬取公開數據、盡量放慢你的速度、盡量遵循robots、不要公開你的爬蟲源碼、不要分享你的爬蟲數據。

2017.06.01號《中華人民共和國網絡安全法》開始實施,這個安全法在爬蟲的這一塊寶地上掀一陣大風波,到處都在轉這篇試圖解讀該規定的文章:「 你的爬蟲會送老板進監獄嗎? 」轉載的地方太多,我也不知道原始這篇文章轉載自哪里了。 總之,自那以后只要碰到爬蟲,不管是爬個幾萬條房價信息用來做一些小研究,還是爬一些知乎的用戶資料來做排名統計分析,總會有人說:哎呀,爬蟲不是犯法嘛?你要當心啊。 我一臉詫異,連這種公開信息也不能抓取?但是我還是比較慫的,在擔心會被送進監獄的情況下,我花了一個小時仔細的閱讀研究了最新版的《中華人民共和國網絡安全法》 在仔細閱讀了中華人民共和國網絡安全法三遍之后,我並沒有發現任何一條關於抓取網絡公開信息的規定,難道我看錯了文件?在再三確認讀的確實是最新稿的前提下,我意識到認為網絡爬蟲犯法這一看法的誤傳原因可能是那篇瘋傳的文章導致的。 所以我又仔細研究了這篇文章,文章提及以下兩點; 01. 《網絡安全法》以及最新刑事司法解釋: 未經授權爬取用戶手機通訊錄超過50條記錄,老板進去最高可達3年; 未經授權抓取用戶淘寶交易記錄超過500條的,老板進去最高可達3年未經授權讀取用戶運營商網站通話記錄超過500條以上的,老板進去最高可達7年; 未經授權讀取用戶公積金社保記錄的超過50000條的,老板進去最高可達7年。 02. 司法解釋里面提到以下集中類型的數據,無論是“非法提供”和“非法獲取”都可以入刑: 第一類:高度敏感信息,包括四種信息:行蹤軌跡信息、通信內容、征信信息、財產信息。涉及高度敏感信息的違法活動,由於定罪門檻最低,因此嚴格限制在此四類,不做任何擴展; 第二類:敏感信息,即住宿信息、通信記錄、健康生理信息、交易信息等其他可能影響人身、財產安全的公民個人信息。與第一類相比較,《解釋》對第二類信息的界定仍留有空間,意味着在司法實踐中,仍有可能會出現目前所列舉之外的第二類信息類型; 第三類:其他個人信息。即上述第二、三類以外的個人信息。個人信息的類型是定罪量刑的重要依據。越敏感信息,達到定罪門檻的信息數量越少。 再三研究此篇文章之后,我發現這篇文章的幾個問題點: 認為爬蟲就是用來抓取個人信息的,與信用基礎數據相關的。 住宿信息、通信信息、交易記錄本來就是不公開的用戶隱私,這通常是在App內的用手收全獲取的信息,與爬蟲無關。 爬蟲竟然能用來暴力破解密碼?抱歉,這已經超過了爬蟲的范疇了。 所以我想為寫那篇文章以及不斷轉載那篇文章的作者和媒體重新解釋一下爬蟲的定義:網絡爬蟲(英語:web crawler),也叫網絡蜘蛛(spider),是一種用來自動瀏覽萬維網的網絡機器人。 網絡爬蟲抓取的數據有如下規則: 數據完全公開 不存在也無法做到越權訪問爬取 所以結合之前的文章與最新的中華人民共和國網絡安全法,我想說:至少到目前為止,都沒有一條明確的規定禁止網絡爬蟲,是一些並不懂網絡爬蟲的媒體、個人作者憑着自己編故事的能力、總想搞個大新聞的想象力寫了那么一篇誤導了很多圈外人的文章觀點。 所以那些擔心為了研究而做的公開數據的網絡爬蟲的同學們,不用擔心觸犯法律,但是我還是想提醒幾句關於網絡爬蟲道德的話:盡量放慢你的速度、盡量遵循robots、不要公開你的爬蟲源碼、不要分享你的爬蟲數據。