爬取网站出现高频关键词

本文转载自查看原文 2019-12-10 20:31 250

import requests
from bs4 import BeautifulSoup
import jieba
    
    
#爬取页面代码并解析
def get_html(url):
    try:
        response=requests.get(url)
        response.raise_for_status
        response.encoding=response.apparent_encoding
        html=BeautifulSoup(response.text,'html.parser')
        return html
    except:
        print('爬取出错')


#计算关键词出现次数
def count_word(txt):
    counts={}
    words=jieba.cut(txt)
    for word in words:
        if len(word)==1:
            continue
        else:
            counts[word]=counts.get(word,0)+1
    return counts


def main():
    url='http://www.c114.com.cn/'
    html=get_html(url)
    print('get html')
    t=html.get_text('+',strip=True)
    txt = "".join(i for i in t if ord(i) >= 256)  #txt中除去英文
    print('get txt')
    counts=count_word(txt)
    items=list(counts.items())
    items.sort(key=lambda x:x[1],reverse=True)
    for i in range(15):
        word,count=items[i]
        print('{:<15}{:>5}'.format(word,count))
main()

分别以 c11通信网[http://www.c114.com.cn/] & 通信人家园[http://www.txrjy.com/forum.php] 这两个网站为例：

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 python requests库网页爬取小实例：百度/360搜索关键词提交 Python爬虫根据关键词爬取知网论文摘要并保存到数据库中【入门必学】 awk统计文件中某关键词出现次数提取文档关键词爬虫大作业——爬取网站数据生成词云我的网站被黑了，关键词被劫持，总结一下是怎么解决的。 php获取从百度搜索进入网站的关键词关于verilog中的关键词signed 存储过程常用的关键词 Java拓展接口-default关键词