一、候選 sug 詞數據來源:
商品側:query 召回的商品數、query 召回的訂單數
query側:QV、QV_CTR、QV_CXR
從這兩個角度選出的 query 作為 sug 詞候選集
二、數據處理(分析)
規則挖掘、FP算法挖掘、商品標題NER標簽提取:功效/品牌/適用群體/適用場景+簡名
三、sug 詞召回
query:商品側 vs query側
query處理:原始query(未處理) vs 改寫query
原始query/改寫query-->分詞-->基於分詞結果從候選集中進行前綴召回
原始query/改寫query-->拼音前綴匹配召回
原始query/改寫query-->連續子串匹配召回
四、排序
query 側召回的詞 > 商品側召回的詞
搜索PV
固定指標:QV_CTR/QV_CXR
五、評價指標
sug 詞點擊率
搜索框點擊跳出率
相關產品功能的轉化指標等
六、工程技術方案
https://github.com/hankcs/AhoCorasickDoubleArrayTrie 雙數組字典樹,key 是查詢詞,value 支持對象(sug結果詞+各種指標(搜索 uv、QV_CTR、QV_CXR))