百度搜索鏈接規則為:
http://www.baidu.com/s?wd=[搜索詞目]&cl=3
有多個搜索詞通過加號進行鏈接:
http://www.baidu.com/s?wd=keyword1+keyword2&cl=3
如果關鍵詞中有中文的話,百度就會將其轉碼為%開始的編碼。常用的編碼格式主要有utf-8
、gbk
兩種,二者的轉碼結果是不一樣的,下面通過Python
的urllib
庫進行測試。
# 百度URL鏈接轉碼
import urllib
keyword = '測試'
kwd = urllib.parse.quote(keyword, encoding = 'utf-8', errors = 'replace')
print(kwd)
kwd = urllib.parse.quote(keyword, encoding = 'gbk', errors = 'replace')
print(kwd)
結果如下:
%E6%B5%8B%E8%AF%95
%B2%E2%CA%D4
對比瀏覽器的網址,可知百度采用的是utf-8編碼。
參考鏈接1:關於url鏈接包含中文編碼問題
參考鏈接2:百度搜索鏈接中的漢字轉碼