seo與python大數據結合給文本分詞並提取高頻詞

本文轉載自查看原文 2018-07-22 20:56 1130 seo工具/ Python開發筆記/ 提取高頻詞匯/ 大數據開發

最近研究seo和python如何結合，參考網上的一些資料，寫的這個程序。

目的：分析某個行業（例如：圓柱模板）用戶最關心的一些詞，根據需求去自動調整TDK,以及欄目，內容頁的規划

使用方法：

1、下載安裝cygwin：http://www.cygwin.com/
2、cygwin安裝時別忘記安裝curl，wget，iconv，lynx，dos2unix，Python等常用工具，特別是Python，這次主要就是用它了。
3、去下載jieba中文分詞組件：
首選：https://github.com/fxsjy/jieba/archive/master.zip
備用：https://pypi.python.org/pypi/jieba/
4、安裝jieba中文分詞組件：
全自動安裝： easy_install jieba 或者 pip install jieba / pip3 install jieba
半自動安裝：先下載 https://pypi.python.org/pypi/jieba/ ，解壓后運行 python setup.py install
手動安裝：將 jieba 目錄放置於當前目錄或者 site-packages 目錄
通過 import jieba 來引用
5、復制以下代碼，另存為“jiebacmd.py”
6、新建一個文件夾，將你需要分詞的文本和jiebacmd.py拷進去，記住文本需要另存為utf-8編碼，然后在cygwin里用cd命令把工作目錄切換進新建的文件夾，再輸入以下命令：cat abc.txt|python jiebacmd.py|sort|uniq -c|sort -nr|head -100

　　代碼：

#encoding=utf-8
#usage example (find top 100 words in abc.txt):
#用途：找出abc.txt文件中出現頻率最高的前100個詞
#復制以下命令到cygwin里運行，abc.txt是你文本的文件名，head -100可以自己改成想要提取的前多少個詞
#cat abc.txt | python jiebacmd.py | sort | uniq -c | sort -nr -k1 | head -100
#以上都是注釋，不影響程序運行
from __future__ import unicode_literals
import sys
sys.path.append("../")
reload(sys)
sys.setdefaultencoding( "utf-8" )
import jieba
default_encoding='utf-8'
if len(sys.argv)>1:
    default_encoding = sys.argv[1]
while True:
    line = sys.stdin.readline()
    if line=="":
        break
    line = line.strip()
    for word in jieba.cut(line):
        print(word)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python數據分析高頻詞提取，pyecharts詞雲制作並保存 NLP（二）：jieba高頻詞提取如何從大量數據中找出高頻詞如何從大量數據中找出高頻詞 jieba文本分詞，去除停用詞，添加用戶詞 NLP實現文本分詞+在線詞雲實現工具短文本分析----基於python的TF-IDF特征詞標簽自動化提取 Python大數據：jieba 中文分詞，詞頻統計大數據高頻面試題 [大數據]-Elasticsearch5.3.1 IK分詞，同義詞/聯想搜索設置