分類: Android開發 |
http://blog.csdn.net/followingturing/article/details/7850317

原創文章,版權歸andxu所有,如轉載請征求本人同意,並一定保存本頁鏈接。
——————————————————————————————————————————————————
在做搜索時候,關注搜索引擎的URL格式是一個很重要的問題,以百度為例,整理一下常用的格式和技術:
Eg.幾個百度搜索的URL
http://www.baidu.com/s?lm=0(搜索結果時間限制) &si=&rn=10(每頁顯示的數目) &ie=gb2312&(語言)ct=0 &wd=�%6��& (關鍵詞)pn=10 (在第pn比上10后加上1頁) &ver=0 &cl=3 &uim=6 &usm=0
http://www.baidu.com/s?ie=utf8&bs=mc&f=8&rsv_bp=1&rsv_spt=3&wd=百度搜索url含義&inputT=12534
ttp://www.baidu.com/s?wd=libreoffice+cal+�Զ�����&rsv_bp=0&rsv_spt=3&oq=libreoff&sug=libreoffice&rsv_n=1&rsp=0&inputT=23204
http://www.baidu.com/s?word=jay+site:blog.csdn.net&tn=sitehao123&ie=utf-8
所以關鍵問題:怎么正確認識百度搜索的參數?
就目前的認識,整理一下參數:
序號 | 參數 | 含義 |
1 | tn | 搜索框所屬網站。比如 tn=sitehao123,就是 http://www.hao123.com/ 左上那個搜索框(指通過什么方式到達百度首頁搜索界面;) |
2 | s?wd | 指關鍵詞, “wd=” 是英文的word的縮寫,參數表示的是搜索關鍵詞的內容,如果是漢字那么這個參數是漢字的十六進制形式,如果是英文,那么這個參數就用該英文來表示 |
3 | rsv_bp | (0,1,2) 0是首頁輸入;1是頂部搜索輸入;2是底部搜索輸入 |
4 | rsv_spt | (1,3還有其他的數字,暫時沒發現) 指的瀏覽器內核; |
5 | rsv_ers | xn* (*取0或1) 指的是搜索詞后,翻頁出現對應的相關搜索,從0開始。如果在url里已經是0的話,那對應的相關搜索就從1開始(這個參數還有很多密,這個只是初步測試) |
6 | rsp | 指的是相關搜索排序(從0開始) |
7 | sug | 這個參數只有在你修改下拉框文字時才會出現,指的是下拉框出現的關鍵詞 |
8 | oq | 指的是你在輸入搜索詞時,輸入一半,選擇了下拉框之前輸入的詞;oq= 指的是搜索詞,只有當url地址出現rsp而非rsv_bp時,oq才指的是從搜索詞跳轉到相關搜索。 |
9 | inputT | 從你打開百度主頁,在對話框輸入數據的時候開始計時,到你點擊百度一下的時間計算。(只有在頂部搜索,首頁搜索才會出現)。 |
10 | s?bs | 指的是上一次搜索的詞, “bs=”參數應該是英文“base”的縮寫,也就是“基於...”的意思,通俗點說就是在搜某一個關鍵詞后再次搜索其它關鍵詞的意思。bs=這個參數是百度用來判斷某個關鍵詞的相關關鍵詞而設置的,也就是百度通過用戶的搜索行為來判斷某個關鍵詞的相關關鍵詞.(Maybe Before Search) |
11 | f | (1,3,8) 也許還有其他的,暫時發現就這3種,1指的是相關搜索,表示用戶選擇了搜索頁面最下面的“相關搜索”中的某個關鍵詞。;3下拉框搜索 表示用戶輸入一定的詞語之后出現“聯想詞語”,用戶最終用鼠標選擇了某個關鍵詞;或用鍵盤選擇了某個關鍵詞后直接按回車。;8用戶自主搜索,表示用戶直接點擊“百度一下”按鍵(有bs變量時才出現f=8) |
12 | ieInput Encoding | 輸入編碼。百度似乎不支持其它編碼。 默認值是“gb2312” |
13 | ct | 語言限制。0-所有語言,1-簡體中文網頁,2-繁體中文網頁;其它不確定或者無效或。默認值為0. |
14 | rn | 每頁包含的搜索結果數目。默認值為10 |
15 | pn | 搜索結果的頁碼,從零開始計數。即pn = ${結果頁碼-1}*rn。 |
16 | lm | 搜索結果的時間限制。以天為單位,例如搜索最近一個月的網頁,lm=30.默認值為0,表示沒有時間限制。 |
17 | q5 | 搜索內容位置限制.0-所有內容;1-網頁標題(相當於使用'title:'查詢前綴);2-url(相當於使用'inurl:'查詢前綴);其它值等效於0.默認值為0 |
18 | q6 | 搜索內容網站限制.例如q6=sohu.com,表示只搜索sohu.com的網頁;相當於使用了'site:前綴'.默認值為空 |
19 | dq | 不建議使用該參數.查詢內容來原的地區限制. 具體值有百度確定.默認值為空.試了一下,使用這個參數的效果很差. |
20 | cl | 百度提交的搜索類型(Class),cl=3為網頁搜索,cl=2為百度新聞 |
21 | rs2 | 暫時未知 |
22 | sc | 暫時未知 |
23 |