采集标题如何插入搜索词


如果采集的目标网站,他们的标题本身就不符合SEO,比如抓了一堆新闻标题,如何让标题尽可能的集中用户可能会搜的词?本渣渣之前尝试过这些方法:

 方法一:精简原始标题

步骤如下:

  • 对原始标题分词

  • 去除停止词

  • 获取词缀词性

  • 去除修饰词,如形容词、副词、介词…,保留原标题主谓宾,获取句子主干

基于python的jieba模块实现,要删除的修饰词可以预先分析大量的标题来提取,追加到字典中。github有现成的提取句子主干的轮子,好像用的nltk。

貌似1688部分产品页的title就是这么搞的,把用户发布的产品名中一些无关大雅的词缀干掉,提取主干放到title标签中。

 方法二:插入搜索词

步骤如下:

  • 搭建xunsearch或其他的开源搜索,对采集标题创建索引

  • 用提前准保好的搜索词(就是要做的那些词)依次到搜索接口中搜索

  • 对搜索结果中出现的标题前方插入当前搜索词

比如原标题是:“斗鱼美女主播直播睡觉一夜狂澜20万”…..,我要做的词有“斗鱼美女直播”,则标题前插入关键词:“[斗鱼美女直播]斗鱼美女主播直播睡觉一夜狂澜20万”

当然也可以:“{强行插入的搜索词}{精简后的原始标题}”

 方法三:插入当前标题已包含搜索词的衍生词、相关搜索词

步骤如下:

  • 抓取标题已包含搜索词的百度相关搜索或下拉框,或者通过Word2vec算法分析其他抓取内容正文,获取该搜索词的同义词..

  • 标题中插入相关搜索或下拉框的词

如:”[{百度相关搜索词1}]{精简标题}”、“[{下拉框推荐词1}{原始标题}]”……相互组合啦……

 


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM