刷百度相關搜索發包參數詳解


    因很多人需要百度相關搜索,很多人用這個技術賣錢,自己本着技術的愛好,把這個分享給大家!

 

   刷相關搜索的實現方法:

第一:比如圓柱模板,我們可以先搜索圓柱模板廠家,然后接着再去搜索圓柱模板價格,那么每天以幾倍的方式增加,當達到一定搜索量的時候,那么圓柱模板的相關詞搜索就會出現圓柱模板價格了。

  打開百度首頁//www.baidu.com/輸入圓柱模板出來的地址為:

  

https://www.baidu.com/s?ie=UTF-8&wd=%E5%9C%86%E6%9F%B1%E6%A8%A1%E6%9D%BF

  這串代碼中:

%E5%9C%86%E6%9F%B1%E6%A8%A1%E6%9D%BF

  

      是代表圓柱模板的代碼

   再出來的頁面中輸入你要的品牌,比如鵬程圓柱模板,輸入完畢后,點百度一下。

     

https://www.baidu.com/s?bs=%E5%9C%86%E6%9F%B1%E6%A8%A1%E6%9D%BF&f=8&rsv_bp=1&wd=%E9%B9%8F%E7%A8%8B%E5%9C%86%E6%9F%B1%E6%A8%A1%E6%9D%BF&inputT=54390

    這串代碼中:

    

%E5%9C%86%E6%9F%B1%E6%A8%A1%E6%9D%BF

  是不變的,代表:圓柱模板  關鍵詞

   f=8這個數值是會變動的。范圍為:

  0-9.數值越高,代表着這個相關搜索的詞越容易做上去。

   

%E9%B9%8F%E7%A8%8B%E5%9C%86%E6%9F%B1%E6%A8%A1%E6%9D%

  代表的是:鵬程圓柱模板 這個相關詞的代碼

   

inputT=54390

  代表這個是代表搜索結果出來的運算時間

   

相關搜索算法實現原理:

用戶后繼詞原理:

把用戶在5分鍾之內在搜索引擎中搜索詞定義為一次搜索行為,那么就形成了搜索日志,搜索日志如下:

cookie:用戶cookieid keys:[A1,A2.....] [B1,B2.....] [C1,C2.....]

接着按用戶進行分類,時間間隔5分鍾進行數據清理,[x1,x2.....]一個數組表示一次搜索行為,每個數組的第一位就是當次搜索行為的第一個搜索詞。

cookie:用戶cookieid keys:[A1,A2.....] [B1,B2.....] [C1,C2.....]

對於單個用戶來說搜索后繼詞的確定性是不夠的,比如搜索科比,但是一看到旁邊有人我就立刻改變搜索培訓,那么這兩個詞是沒有相關性質的。那么就加入統計規則去掉一些雜質,比如某個詞B只有出現在5個用戶的相同的搜索詞A的后繼詞中才算一個A的后繼詞,還有其他的一些規則,這么下來,日志就變成了。

key:A succeed:A1,A2,A3.....

用戶協同過濾原理:

當搜索用戶日志足夠多的情況,可以把擁有相同搜索記錄的用戶聚合起來,通過協同過濾算法,獲取更多的相關性的詞。通過下面協同過濾算法同樣可以把加索爾推薦給NBA了。

A用戶:籃球 后繼詞 男籃 女籃

B用戶:NBA 后繼詞 男籃 科比

C用戶:男籃比賽 后繼詞 男籃 加索爾

從搜索詞算法實現:

如果一個關鍵詞搜索詞結果,跟另外一個,甚至幾個關鍵詞搜索出來的結果很多交集,那么這些關鍵詞很可能也是語義相關的詞。

從搜索日志來看例子:

key:搜索詞 time:搜索時間 cookie:用戶cookieid result:a,b,c,d,e(前5個搜索結果)

這次,我們只用key和result兩項,稍微處理下來以后就變成了

key:搜索詞A result:a,b,c,d,e(前5個搜索結果)

key:搜索詞B result:a,f,c,g,m(前5個搜索結果)

如果我們把每一行數據的result想象成一篇文檔,result里面的每個結果集想象成一個詞語,那么這其實就是求兩個文檔之間的相似性了,從頭到尾過一遍就可以找到每一行數據和它最相似的數據了,而每一行可以用當行的搜索詞表示,這么一算下來數據就變成這樣子了,后面的括號里面是兩個詞的相似度,如果想知道文本的相似性如何計算,可以參考我之前的文章,本文最后有鏈接。

key:搜索詞Asucceed:搜索詞B(0.8)搜索詞C(0.6).....

key:搜索詞Bsucceed:搜索詞A(0.8)搜索詞E(0.7).....

有了上面這個數據,拍一個閾值(比如0.7)卡一下,就得到最后的相關搜索的結果了。

這個計算相似性的方法的計算量比較大,而且閾值沒有卡好的話容易出現不相關的結果,在實際工程應用中使用得不多,下面這個方法使用得更多點,相當於這個的加強版。

從用戶搜索結果集考慮

如果某個搜索結果(比如一個網頁或者一個商品)出現在了不同的搜索詞的結果集中,那么這些個搜索詞很可能是相關的,如果這個搜索結果在不同的搜索詞下都被點擊了,那么這些個詞的相關性就更高了。

點擊的加成是很強大的,而且在數據量巨大的情況下,我們可以只考慮點擊的情況,還是拉出搜索日志,不過這次是搜索點擊日志了,拉出來處理一下就變成下面這個樣子,每行就是某個搜索詞下點擊的商品

key:搜索詞Aclick:結果A結果B結果C

這個樣子和上面第二種方法最后出來的樣子基本一樣,不過這次是點擊數據,相關性可比直接的搜索結果要好很多了,因為搜索結果取決於你的搜索算法,而這種點擊數據是來自用戶的,人的可靠性可高了不少,所以說這個是上一個的加強版。

我們可以按照上一個的方法按文本相似性的方法進行處理,但是計算量也比較大,如果再仔細看看這個數據的樣子,如果我們把相關搜索系統想象成豆瓣,搜索詞看成豆瓣的用戶,搜索結果集看成是豆瓣的電影,那么相關搜索就變成了一個豆瓣的猜你感興趣的人,也變成了一個協同過濾的推薦系統了(協同過濾算法可以參考文章最后的鏈接),上一節的協同過濾算法的數據是詞和后繼詞,這里是詞和點擊結果,雖然數據集不同,但是可以用一樣的算法,所以,搜索和推薦技術其實是密不可分的,既然這樣,完全可以用協同過濾算法進行推薦了。

協同過濾的算法,簡單版本整體不會超過200行,很容易實現的。

通過這樣的方式,容易推出意思相近的詞,同樣也容易推出看似完全不相關但仔細想想還是靠譜的詞,就像下面這樣,他們雖然不見得近義詞,但是很可能會點擊到同一個結果上。


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM