爬蟲的定向爬取與垂直搜索


定向爬蟲是網絡爬蟲的一種。

  定向爬蟲

  定向爬蟲可以精准的獲取目標站點信息。

  定向爬蟲獲取信息,配上手工或者自動的模版進行信息匹配,將信息進行格式化分析存儲。

 優勢:

  基於模版的信息提取技術,能提供更加精准的信息。比如價格,房屋面積,時間,職位,公司名等等。

  劣勢:

  目標網站難以大面積覆蓋,因為基於模版匹配的信息提取技術,需要人工的參與配置模版,欲要大面積覆蓋各個目標網站,需要大量的人力成本,同樣維護模板也需要很大的人力成本。

 

  也就是說定向爬取就是我們要針對不同的網頁構建不同的網頁模板,比如針對BBS就要構建與BBS相同的網頁模板,讓爬蟲定向的搜集某個網頁塊內的信息。對於問答網站就更是如此了。問答網站,一般都有提問塊和回答塊,如果我們能夠建立模板專門的爬取這兩個塊,無疑將會在效率和准確度上更上一層樓。

垂直搜索

垂直搜索是針對某一方面的定向搜索,比如汽車、房子、衣物等等方面的單方面搜索,相對於一般搜索引擎的廣度搜索,更專業性。而我們要做的項目是關於計算機方面知識的問答網站,只需要搜索爬取相應方面的知識就夠了。應該說我們是一個基於深度的搜索。老師也給了我們一些高校的教學資源網站,我們只要能夠將這些網站上的所有鏈接深度爬取,應該也能夠獲取大量專業性的資源。

 

參考資料:http://www.zhihu.com/question/19651413

http://geek87.iteye.com/blog/382450


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM