《圖解HTTP》讀書筆記


  出於興趣,最近在學習一個Java的網絡爬蟲框架webmagic,其實就是用一個程序來把下載任務自動化,比如你想下載一張圖片很快,直接右鍵點擊下載就可以了,但如果下載1000張就需要花些時間了。但計算機可以把這一系列步驟自動化,而你只需要制定規則就行了。折騰了幾天好不容易入門了,興沖沖地准備爬取知乎的頁面,想把知乎上超過1000贊的回答內容下載下來。可程序剛啟動,就收到來自知乎的服務器的信息:403 Forbidden error,拒絕了我的請求。在加入了爬蟲QQ群向大家請教之后才明白,原來是需要把自己偽裝成一個“用戶”才可以騙過服務器,否則服務器默認地會拒絕類似的請求。

  這讓我對網絡協議開始產生了興趣,我在瀏覽器輸入地址回車訪問頁面的動作,本質上而言與電腦上一行命令的效果並沒有太大的區別,服務器並不知道這些,它所知道的就是有來自湖南長沙的一個連接請求。原來服務器並不知道發過來的請求是來自真正的用戶還是經過偽裝的爬蟲,正如那句名言“在網絡上,沒人知道坐在你對面的是人還是狗”。那么,從我按下回車的瞬間到知乎那賞心悅目的頁面地展現在瀏覽器上,這背后到底發生了些什么?記得上計算機網絡的時候也聽過老師介紹TCP/IP協議的分層、路由器轉發、傳輸延遲、中間人攻擊等知識,然而現在已經全部還給老師了。剛好讀到《圖解HTTP》這本書,簡單地介紹了協議分層、HTTP狀態碼、HTTP首部信息、WEB安全等概念,大部分都挺好理解,下面就把我總結的前七章的思維導圖發上來,有興趣的朋友可以下載來看。

 

看不清圖片的點擊這里下載

p.s. 首次提交webmagic的代碼通過了,就是那個爬取知乎頁面的程序,好興奮 :)。

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM