python爬蟲學習--防盜鏈


一 首先要了解什么是盜鏈

盜鏈是指服務提供商自己不提供服務的內容,通過技術手段繞過其它有利益的最終用戶界面(如廣告),直接在自己的網站上向最終用戶提供其它服務商的服務內容,騙取最終用戶的瀏覽和點擊率。受益者不提供資源或者提供很少的資源,而真正的服務提供商卻得不到任何的利益。

最熟悉的,就是盜版網絡小說網站,可能盜鏈起點中文網等的小說內容。

根據盜鏈的形式,可簡單地分成2類,常規盜鏈和分布式盜鏈。 常規盜鏈,只針對某個或某些網站的鏈接。在自己的頁面嵌入別人的鏈接即可。分布式盜鏈,互聯網上任何一台機器都可成為盜鏈的對象。服務提供商一般在后台設置專門程序(spider,爬蟲)在網上抓取有用的鏈接,然后存儲到自己的數據庫中,而對於最終用戶的每次訪問,都將其轉化為對已有數據庫的查詢。被查詢到的URL就是被盜鏈的對象。由於對文件的訪問已經被瀏覽器屏東掉了,最終用戶感覺不到所訪問的鏈接是被盜取的鏈接。

 

二 反盜鏈

原始方式, 修改文件或目錄的名稱

限制引用頁, 僅限自己站內提交,或自己信任的站點提交的。否則視為盜鏈

文件偽裝,用得最多的技術,一般結合服務器動態腳本,。實際上用戶請求的文件地址,只是一個經過偽裝的腳本文件。這個腳本文件會對用戶的請求作認證。一般會檢查session,cookie或者http_referer作為判斷是否為盜鏈的依據。而真實的文件實際隱藏在用戶不能夠訪問的地方,只有用戶通過驗證以后才會返回給用戶。

加密認證, 先從客戶端獲取用戶信息,根據信息和用戶請求的文件名一起加密成session id作身份驗證。成功后,才把用戶需要的文件傳送給客戶。對分布式盜鏈非常有效。

隨機附加碼, 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM