如果采集的目標網站,他們的標題本身就不符合SEO,比如抓了一堆新聞標題,如何讓標題盡可能的集中用戶可能會搜的詞?本渣渣之前嘗試過這些方法:
方法一:精簡原始標題
步驟如下:
-
對原始標題分詞
-
去除停止詞
-
獲取詞綴詞性
-
去除修飾詞,如形容詞、副詞、介詞…,保留原標題主謂賓,獲取句子主干
基於python的jieba模塊實現,要刪除的修飾詞可以預先分析大量的標題來提取,追加到字典中。github有現成的提取句子主干的輪子,好像用的nltk。
貌似1688部分產品頁的title就是這么搞的,把用戶發布的產品名中一些無關大雅的詞綴干掉,提取主干放到title標簽中。
方法二:插入搜索詞
步驟如下:
-
搭建xunsearch或其他的開源搜索,對采集標題創建索引
-
用提前准保好的搜索詞(就是要做的那些詞)依次到搜索接口中搜索
-
對搜索結果中出現的標題前方插入當前搜索詞
比如原標題是:“斗魚美女主播直播睡覺一夜狂瀾20萬”…..,我要做的詞有“斗魚美女直播”,則標題前插入關鍵詞:“[斗魚美女直播]斗魚美女主播直播睡覺一夜狂瀾20萬”
當然也可以:“{強行插入的搜索詞}{精簡后的原始標題}”
方法三:插入當前標題已包含搜索詞的衍生詞、相關搜索詞
步驟如下:
-
抓取標題已包含搜索詞的百度相關搜索或下拉框,或者通過Word2vec算法分析其他抓取內容正文,獲取該搜索詞的同義詞..
-
標題中插入相關搜索或下拉框的詞
如:”[{百度相關搜索詞1}]{精簡標題}”、“[{下拉框推薦詞1}{原始標題}]”……相互組合啦……