定向爬蟲是網絡爬蟲的一種。
定向爬蟲
定向爬蟲可以精准的獲取目標站點信息。
定向爬蟲獲取信息,配上手工或者自動的模版進行信息匹配,將信息進行格式化分析存儲。
優勢:
基於模版的信息提取技術,能提供更加精准的信息。比如價格,房屋面積,時間,職位,公司名等等。
劣勢:
目標網站難以大面積覆蓋,因為基於模版匹配的信息提取技術,需要人工的參與配置模版,欲要大面積覆蓋各個目標網站,需要大量的人力成本,同樣維護模板也需要很大的人力成本。
也就是說定向爬取就是我們要針對不同的網頁構建不同的網頁模板,比如針對BBS就要構建與BBS相同的網頁模板,讓爬蟲定向的搜集某個網頁塊內的信息。對於問答網站就更是如此了。問答網站,一般都有提問塊和回答塊,如果我們能夠建立模板專門的爬取這兩個塊,無疑將會在效率和准確度上更上一層樓。
垂直搜索
垂直搜索是針對某一方面的定向搜索,比如汽車、房子、衣物等等方面的單方面搜索,相對於一般搜索引擎的廣度搜索,更專業性。而我們要做的項目是關於計算機方面知識的問答網站,只需要搜索爬取相應方面的知識就夠了。應該說我們是一個基於深度的搜索。老師也給了我們一些高校的教學資源網站,我們只要能夠將這些網站上的所有鏈接深度爬取,應該也能夠獲取大量專業性的資源。