SharePoint 搜索爬網第三方網站配置

本文轉載自查看原文 2012-12-15 15:57 3387 使用實例/ SharePoint 2007 系列

介紹：SharePoint的搜索着實強大，而且最近用到SharePoint搜索第三方爬網，感覺收獲挺大，而且網上資料沒找到太多類似的，就小記錄一下，分享給大家。

首先，我自己寫了一個net頁面，里面讀取所有我需要內容，充當SharePoint爬網的數據源，對這個頁面進行爬網，頁面如下圖：

然后，打開SharePoint管理中心，搜索設置，新建內容源Crawl，爬網http://moss:9000，如下圖。爬網設置可以按照自己的需要進行設置，比如想要爬網頁面深度，可以進行設置，我的爬網，只是爬網頁面下面的鏈接，所以深度設置為1；設置完成，先不要爬網，還需要設置爬網規則。

設置爬網規則：

打開爬網規則，設置路徑，我的路徑是9000端口下的所有頁面，所以設置為http://moss:9000/*，當然，你的規則應該按照需要進行設置，可以排除這些路徑，也可以包含這些路徑，同時，如果有爬網到的任何結果，都可以在這里進行排除。

特別的是，我的頁面上的鏈接，包含“?”問號，所以勾選了對復雜的URL進行爬網，下面的指定認證，可以選擇認證的賬號，如果需要Form認證的網頁，可以設置指定其他內容訪問賬戶【特別：如果登錄需要驗證碼的，SharePoint是無法爬網的】。設置完爬網規則，點擊確定保存，然后可以對Crawl內容源進行完全爬網了。

對Crawl內容源進行完全爬網，查看爬網日志，如下圖：

在SharePoint搜索頁面上，試試搜索剛配置的內容源，如下圖：

搜索結果：

注意事項：

1、如果，服務器處於代理訪問網站的情況，需要配置管理中心的代理，位置在搜索管理 - 代理服務器和超時 - 管理中心URL/_admin/searchfarmsettings.aspx

2、搜索爬網內容，可能會出現異常情況，可以嘗試重置搜索內容，位置在搜索管理 - 重置所有已爬網內容，重置一下搜索結果。

3、爬網結果，搜索出來的結果，標題為搜索頁面的Html的頁面Title，內容為頁面上的Body內容，鏈接為URL。

4、同樣的搜索配置，可以搜索新浪，搜狐等網站。

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 給網站加第三方社交登錄的網站調用qq第三方登錄 Hybrid容器設計之第三方網站網站第三方評論對比素材資源解析系統源碼代下程序第三方平台下載站程序千圖網千庫網等素材網站下載網站 VS配置使用第三方庫 vue 調用第三方接口配置開放平台-web實現人人網第三方登錄微信小程序跳轉第三方網站第三方網站實現微信掃碼登錄