SEO 網站抓取和收錄的那些事


網站建好了,如何才能讓搜索引擎收錄網站?如果頁面無法被搜索引擎收錄,就意味着沒有展示,也就無法競爭排名獲取 SEO 流量了。

本文將圍繞抓取和收錄亮點,從基本原理,常見問題和解決方法三個維度探討搜索引擎優化。

  1. 什么是抓取、收錄
  2. 網頁抓取工具
  3. robots.txt 文件介紹
  4. 如何查看網站的收錄情況

  5. 設置網頁不被搜索引擎索引

 

搜索引擎的原理:搜索引擎是把互聯網上的網頁內容存在自己的服務器上,當用戶搜索某個詞的時候,搜索引擎就會在自己的服務器上找相關的內容,也就是說,只有保存在搜索引擎服務器上的網頁才會被搜索到。

哪些網頁才能被保存到搜索引擎的服務器上呢?

只有被搜索引擎的抓取程序抓到的網頁才會保存到搜索引擎的服務器上,這個網頁抓取程序就是搜索引擎的蜘蛛.整個過程分為爬行和抓取。

一、什么是抓取、收錄

 

抓取(Crawl)

就是搜索引擎爬蟲爬取網站的這個過程。Google的官方解釋是——“抓取”是指找出新網頁或更新后的網頁以將其添加到 Google 中的過程;(點擊此處查看谷歌官網文檔

收錄(Index)

就是搜索引擎把頁面存儲到其數據庫的結果,也叫索引。Google的官方解釋是:Google 抓取工具(“Googlebot”)已訪問該網頁、已分析其內容和含義並已將其存儲在 Google 索引中。已編入索引的網頁可以顯示在 Google 搜索結果中;(點擊此處查看谷歌官網文檔

抓取配額(Crawl Budget)

是搜索引擎蜘蛛花在一個網站上的抓取頁面的總時間上限。一般小型網站(幾百上千個頁面)其實並不需要擔心,搜索引擎分配的抓取配額夠不夠;大型網站(百萬級或千萬級頁面)會考慮這個問題更多一些。假如搜索引擎每天抓取的頁面數幾萬個,那整個網站的頁面抓取可能就得數月或一年。一般這個數據可以通過Google Search Console后台了解到,如下截圖所示,紅框中的平均值即網站分配所得的抓取配額。

 

 

 

 

 

 

通過一個例子來讓大家更好地理解抓取,收錄及抓取配額:

把搜索引擎比喻為一座龐大的圖書館,把網站比喻為一間書店,書店中的書本比喻為網站頁面,蜘蛛爬蟲比喻為圖書館采購員。

采購員為了豐富圖書館的藏書,會定期到書店查看是否有新的書本進貨,翻閱書本的這個過程就可以理解為抓取;

當采購員覺得這本書有價值,就會購買帶回圖書館進行收藏,這個書本收藏就是我們所說的收錄;

每個采購員的購書預算是有限的,他會優先購買價值高的書本,這個預算就是我們理解的抓取配額。

 

二、網頁抓取工具

 “抓取工具”是一個統稱,泛指通過跟蹤從一個網頁指向另一個網頁的鏈接自動發現並掃描網站的任何程序(如漫游器或“蜘蛛”程序)。Google 的主要抓取工具叫作 Googlebot

  • Google: Googlebot
  • Google Images: Googlebot-Image
  • Bing: Bingbot
  • Yahoo: Slurp
  • Baidu: Baiduspider
  • DuckDuckGo: DuckDuckBot

 

三、robots.txt 文件介紹

 robots.txt 文件中規定某個抓取工具的抓取規則。

robots.txt 文件必須位於主機的頂級目錄中。

一般情況下,robots.txt 文件會出現三種不同的抓取結果:

  • 全部允許:所有內容均可抓取。
  • 全部禁止:所有內容均不能抓取。
  • 有條件地允許:robots.txt 中的指令決定是否可以抓取某些內容。

robots.txt 用法舉例: 網站目錄下所有文件均能被所有搜索引擎蜘蛛訪問  User-agent: *

   Disallow:
  禁止所有搜索引擎蜘蛛訪問網站的任何部分   User
-agent: *   Disallow: /
  禁止所有的搜索引擎蜘蛛訪問網站的幾個目錄   User
-agent: *   Disallow: /a/   Disallow: /b/
  只允許某個搜索引擎蜘蛛訪問   User
-agent: Googlebot   Disallow:

屏蔽所有帶參數的 URL
User-agent: *
Disallow: /*?

 

應該限制網站某些文件不被蜘蛛抓取:

一般網站中不需要蜘蛛抓取的文件有:后台管理文件、程序腳本、附件、數據庫文件、編碼文件、樣式表文件、模板文件、導航圖片和背景圖片等等。

robots.txt文件帶來的風險以及解決:

robots.txt 同時也帶來了一定的風險:其也給攻擊者指明了網站的目錄結構和私密數據所在的位置。設置訪問權限,對您的隱私內容實施密碼保護,這樣,攻擊者便無從進入。

 

四、如何查看網站的收錄情況

通過Site命令

主流的搜索引擎如Google,Baidu及Bing都是支持Site命令的。通過Site命令可以在宏觀層面查看一個網站被收錄了多少頁面,這個數值是不精確的,有一定的波動性,但是具有一定的參考價值。如下圖所示,ryanzoe.top 網站被 Google 收錄的網頁數大概為 165 個。

 

 

 

②如果網站已經驗證了Google Search Console,這就可以獲取網站被Google收錄的精確數值,如下圖紅框所示,Google收錄了ryanzoe.top 網站的 216 個頁面;

 

 

 

 

③如果想查詢特定的頁面是否被收錄,可以通過info命令,Google是支持info命令的,百度和Bing不支持,在google中輸入 info:URL , 如果有結果返回,即頁面已經被收錄,如下圖所示:

 

五、設置網頁不被搜索引擎索引

 建議使用 robots meta 標簽,在 head 標簽中添加如下代碼:

<meta name="robots" content="noindex, nofollow">

可以將多個指令 合並為一個以英文逗號分隔的列表,這些指令不區分大小寫。

all

對索引編制或內容顯示無任何限制。該指令為默認值,因此明確列出時並無任何效果。

 

noindex

不在搜索結果中顯示此網頁。nofollow不追蹤該網頁上的鏈接。

 

none

等同於 noindex, nofollownoarchive不在搜索結果中顯示緩存鏈接

 

nosnippet

不在搜索結果中顯示該網頁的文本摘要或視頻預覽。靜態圖片縮略圖(如果有)若能夠實現更好的用戶體驗,就可能仍會顯示。這適用於所有形式的搜索結果(例如 Google 網頁搜索、Google 圖片、Google 探索)。

 

max-snippet:[number]

最多只能使用 [number] 個字符作為此搜索結果的文字摘要。(請注意,網址可能會在搜索結果頁中顯示為多個搜索結果。)這並不會影響圖片或視頻預覽。這適用於所有形式的搜索結果(例如 Google 網頁搜索、Google 圖片、Google 探索、Google 助理)。但是,如果發布商已單獨授予內容使用權限,則此限制不適用。例如,如果發布商以頁內結構化數據的形式提供內容或與 Google 簽訂了許可協議,則此設置不會妨礙這些更具體的允許用途。如果未指定可解析的 [number],此指令會被忽略。

特殊值:

  • 0:不會顯示任何摘要。等同於 nosnippet
  • -1:沒有摘要長度限制。

示例:

<meta name="robots" content="max-snippet:20">
 

max-image-preview:[setting]

設置此網頁的圖片預覽在搜索結果中的尺寸上限。

接受的 setting 值:

  • none:不會顯示圖片預覽。
  • standard:可能會顯示默認圖片預覽。
  • large:可能會顯示較大的圖片預覽,最高達到視口寬度。

這適用於所有形式的搜索結果(例如 Google 網頁搜索、Google 圖片、Google 探索、Google 助理)。但是,如果發布商已單獨授予內容使用權限,則此限制不適用。例如,如果發布商以頁內結構化數據的形式提供內容(例如 AMP 網頁和規范版本的文章),或與 Google 簽訂了許可協議,則此設置不會妨礙這些更具體的允許用途。

如果發布商不希望 Google 將其 AMP 網頁和規范版本的文章顯示在搜索結果頁或“探索”功能中時使用較大的縮略圖,則應將 max-image-preview 的值指定為 standard 或 none

示例:

<meta name="robots" content="max-image-preview:standard">

 

max-video-preview:[number]

此網頁上的視頻在搜索結果中的視頻摘要時長不得超過 [number] 秒。

其他支持的值:

  • 0:根據 max-image-preview 設置,最多只能使用靜態圖片。
  • -1:沒有限制。

這適用於所有形式的搜索結果(例如 Google 網頁搜索、Google 圖片、Google 視頻、Google 探索、Google 助理)。如果未指定可解析的 [number],此指令會被忽略。

示例:

<meta name="robots" content="max-video-preview:-1">

 

notranslate

不在搜索結果中提供該網頁的譯文。

 

noimageindex

不將該網頁上的圖片編入索引。

 

unavailable_after: [date/time]

在指定日期/時間過后,不在搜索結果中顯示該網頁。日期/時間必須以廣泛采用的格式指定,包括但不限於 RFC 822RFC 850 和 ISO 8601。如果未指定有效的 [date/time],此指令會被忽略。默認情況下,內容沒有失效日期。

示例:

<meta name="robots" content="unavailable_after: Sunday, 01-Sep-24 01:00:00 PDT">

 

 

參考資料:

https://developers.google.com/search/reference/robots_meta_tag

 

原文地址:https://www.ryanzoe.top/seo/website-seo/


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM