介紹:SharePoint的搜索着實強大,而且最近用到SharePoint搜索第三方爬網,感覺收獲挺大,而且網上資料沒找到太多類似的,就小記錄一下,分享給大家。
首先,我自己寫了一個net頁面,里面讀取所有我需要內容,充當SharePoint爬網的數據源,對這個頁面進行爬網,頁面如下圖:
然后,打開SharePoint管理中心,搜索設置,新建內容源Crawl,爬網http://moss:9000,如下圖。爬網設置可以按照自己的需要進行設置,比如想要爬網頁面深度,可以進行設置,我的爬網,只是爬網頁面下面的鏈接,所以深度設置為1;設置完成,先不要爬網,還需要設置爬網規則。
設置爬網規則:
打開爬網規則,設置路徑,我的路徑是9000端口下的所有頁面,所以設置為http://moss:9000/*,當然,你的規則應該按照需要進行設置,可以排除這些路徑,也可以包含這些路徑,同時,如果有爬網到的任何結果,都可以在這里進行排除。
特別的是,我的頁面上的鏈接,包含“?”問號,所以勾選了對復雜的URL進行爬網,下面的指定認證,可以選擇認證的賬號,如果需要Form認證的網頁,可以設置指定其他內容訪問賬戶【特別:如果登錄需要驗證碼的,SharePoint是無法爬網的】。設置完爬網規則,點擊確定保存,然后可以對Crawl內容源進行完全爬網了。
對Crawl內容源進行完全爬網,查看爬網日志,如下圖:
在SharePoint搜索頁面上,試試搜索剛配置的內容源,如下圖:
搜索結果:
注意事項:
1、 如果,服務器處於代理訪問網站的情況,需要配置管理中心的代理,位置在 搜索管理 - 代理服務器和超時 - 管理中心URL/_admin/searchfarmsettings.aspx
2、 搜索爬網內容,可能會出現異常情況,可以嘗試重置搜索內容,位置在 搜索管理 - 重置所有已爬網內容,重置一下搜索結果。
3、 爬網結果,搜索出來的結果,標題為搜索頁面的Html的頁面Title,內容為頁面上的Body內容,鏈接為URL。
4、 同樣的搜索配置,可以搜索新浪,搜狐等網站。