日志文件記錄的重要性


Log日志都是一個系統不可缺少的一個重要組成部分,通常是系統的運行記錄。日志一般分為兩大類型:

一、系統日志:

    記錄系統中硬件、軟件和系統問題的信息,同時還可以監視系統中發生的事件。系統日志包括系統日志、應用程序日志和安全日志。

  

 二、網站日志:

    記錄web服務器接收處理請求以及運行時錯誤等各種原始信息以.log結尾的文件。我們通過對日志進行統計、分析、綜合,就能有效地掌握網站運行狀況,發現和排除錯誤原因,了解客戶訪問分布等,更好的加強系統的維護和管理。

  日志也是了解搜索引擎工作原理和搜索引擎對網頁抓取頻率的最佳途徑。通過這個文件,可以了解搜索引擎什么時間、抓取了哪些頁面,以及可以知道是主搜索蜘蛛還是從搜索蜘蛛抓取了您的網站等的信息。

  通過不同的log日志級別來記錄以往的操作行為,可以很輕易地分析得到:

     通過分析網站日志Log文件我們可以看到用戶、搜索引擎蜘蛛訪問網站和管理人員操作的行為數據,這些數據能讓我們分析出用戶和蜘蛛對網站的偏好以及網站安全操作及健康情況。因此在網站日志分析中,我們主要需要分析的是蜘蛛行為和操作行為。
     在分析日志時,對於單日日志文件我們需要分析的內容有:訪問次數、停留時間、抓取量、目錄抓取統計、頁面抓取統計、蜘蛛訪問IP、HTTP狀態碼、蜘蛛活躍時段、蜘蛛爬取路徑等;對於多日日志文件我們需要分析的內容有:蜘蛛訪問次數趨勢、停留時間趨勢、整體抓取趨勢、各目錄抓取趨勢、抓取時間段、蜘蛛活躍周期等。

網站日志數據分析解讀:

1、訪問次數、停留時間、抓取量
從這三項數據中我們可以得知:平均每次抓取頁面數、單頁抓取停留時間和平均每次停留時間。
平均每次抓取頁面數=總抓取量/訪問次數
單頁抓取停留=每次停留/每次抓取
平均每次停留時間=總停留時間/訪問次數
    從這些數據我們可以看出蜘蛛的活躍程度、親和程度、抓取深度等,總訪問次數、停留時間、抓取量越高、平均抓取頁面、平均停留時間,表明網站頁面越受搜索引擎喜歡。而單頁抓取停留時間表明網站頁面訪問速度,時間越長,表明網站訪問速度越慢,對搜索引擎抓取收錄較不利,我們應盡量提高網頁加載速度,減少單而立停留時間,讓爬蟲資源更多的去抓取收錄。
2、目錄抓取統計
通過日志分析我們可以看到網站哪些目錄受蜘蛛喜歡、抓取目錄深度、重要頁面目錄抓取狀況、無效頁面目錄抓取狀況等。對於重要目錄,我們需要通過內外調整增加權重及爬取;對於無效頁面,在robots.txt中進行屏蔽。
3、訪問狀態碼
蜘蛛經常出現的狀態碼如301、404等,出現這些狀態碼要及時處理,以避免對網站造成壞的影響。
4、蜘蛛爬取路徑
    在網站日志中我們可以跟蹤到特定IP的訪問路徑,則能發現對於本網站結構下蜘蛛的爬取路徑偏好。由此,我們可以適當的引導蜘蛛的爬取路徑,讓蜘蛛更多的爬取重要、有價值、新更新頁面。其中爬取路徑中我們可以分析頁面物理結構路徑偏好以及url邏輯結構爬取偏好。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM