python爬蟲10 | 網站維護人員:真的求求你們了,不要再來爬取了!!


今天

 

小帥b想給大家講一個小明的小故事

 

 

...

 

 

 

 

話說

 

在很久很久以前

 

小明不小心發現了一個叫做

 

學習python的正確姿勢

 

的公眾號

 

從此一發不可收拾

 

看到什么網站都想爬取

 

 

有一天

 

小明發現了一個小黃網

 

里面的小姐姐

 

一個比一個誘人

 

看了一會這個小黃網

 

小明不知道在倒騰什么

 

反正30秒之后小明虎軀一震

 

 

....

 

 

那天晚上

 

小明躺在床上

 

夜不能寐

 

腦子一直都停留在那個

 

突然靈光一閃

 

我這不是剛學了爬蟲技術么

 

我應該把那個網站上的小姐姐都爬取到自己的電腦啊

 

就算下次那個沒了

 

自己也還有東西可看

 

真是佩服自己的機智啊

 

 

.....

 

第二天小明就開始爬取

 

小明使用

 

python爬蟲入門01:教你在 Chrome 瀏覽器輕松抓包

 

抓了一下數據的請求

 

然后用

 

python爬蟲04 | 長江后浪推前浪,Reuqests庫把urllib庫拍在沙灘上

 

開啟一頓的騷操作

 

 

...

 

哎~

 

小明還是太年輕了

 

這時候網絡運維人員看到了自己的服務器

 

“瓦里割草”

 

怎么突然被瘋狂的請求?

 

趕緊看一下日志

 

媽的,都是同一個 IP

 

誰他媽閑着沒事來搞我?

 

小伙再定睛一看

 

我去, user-agent 是 python 程序

 

把小伙子給氣的啊

 

直接把對方的 ip 地址給封了(加入黑名單)

 

 

....

 

 

小明本來以為一切都能按自己計划行事

 

沒想到突然中斷了

 

小明重新運行了一下程序

 

發現完全無法連接了

 

以為是自己的網絡斷了

 

可是自己上百度是可以的啊

 

后來突然想到

 

好像之前 小帥b 說過

 

爬蟲要學會偽裝,要不然很容易被對方識破的

 

 

....

 

原來如此

 

小明使用了代理ip

 

把 user-agent 設置為 Chrome 瀏覽器

 

然后又開始一頓的爬取了

 

還特么開啟了多線程

 

 

....

 

 

運維人員又發現不對勁

 

媽的

 

這數據不正常,這不正常

 

肯定有人又來搞事情了

 

然后就把網站設置為只有登錄的人才可以獲取數據

 

.....

 

 

小明發現了

 

覺得這是小意思

 

在這個網站注冊了賬號

 

然后設置了相應的cookie

 

繼續爬!

 

....

 

沒過多久

 

小明的手機突然響了

 

小明以為是自己的外賣到了

 

拿起電話就說:來了~

 

結果沒想到的是

 

手機那邊傳來:wcnmlgb!你他媽再爬你看我不弄死你

 

嚇得小明差點yw

 

 

挖槽

 

原來剛剛自己注冊的是自己的手機號碼

 

小明突然覺得自己太 sb 了

 

....

 

小明本來想就這樣算了的

 

可是剛被罵的覺得很不爽

 

小明把自己的手機關機

 

然后自己注冊了很多個賬號

 

搞了多個 cookie 池

 

一起爬!!

 

 

....

 

 

這次運維人員慌了

 

沒想到對方這么會搞事情

 

開始對那些頻繁訪問的ip給封了

 

然后給自己的網站加了驗證碼

 

誰他媽想要請求數據

 

都要先輸入一次驗證碼才可以

 

這次看你怎么搞

 

....

 

 

小明這次真的是杠上了

 

機器學習識別驗證碼都搞上了

 

直接在程序自動識別驗證碼然后進行請求

 

這次小明完全不把小帥b放在眼里了

 

 

....

 

 

運維人員快要沒辦法了

 

突然看到了一些大量的請求都只是獲取 HTML 數據

 

但是 js 和 css 這些都不請求的

 

不合理

 

於是把整個網站

 

都不直接返回 HTML 了

 

用 ajax 加載

 

.....

 

 

小明呵呵一笑

 

這能難倒我?

 

拿出最近小帥b說的

 

python爬蟲09 | 上來,自己動 !這就是 selenium 的牛逼之處

 

直接模仿人類操作

 

這還沒完

 

聽 小帥b 說還有一個叫做 phantomjs 的玩意

 

selenium + phantomjs 可以達到完全模擬瀏覽器操作

 

友情提示:小帥b 下篇推文會跟大家說怎么使用selenium + phantomjs

 

....

 

這下

 

運維人員真的沒辦法了

 

玩不動了

 

只能說一句

 

真的求求你們了,不要再來爬取了!

 

 

...

 

 

哈~

 

本故事純屬亂吹

 

如有雷同

 

別在意

 

 

最后

 

大家都是程序員

 

不容易

 

別亂搞事情

 

 

掃一掃

學習 Python 沒煩惱

 

 

 

 

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM