相关内容简体繁体

张天池---第一次个人编程作业

本文转载自查看原文 2021-02-20 00:37 246

博客班级	2018级计算机和综合实验班
这个作业要求在哪里	作业要求的链接
这个作业的目标	运用Git，灵活运用数据采集分析方法，以及可视化等
作业源代码	在这儿呢，这儿
学号	211806144

时间记录

数据采集	Ajax异步抓包	1.5H
数据处理词频统计	jieba分析数据	4.5H
绘制词云图	~~安装wordcloud，并用wordcloud进行词云图的绘制~~运用echarts进行操作，将词频统计汇集，最终页面形成词云图	4H

统计记录

代码行数	110行
需求分析时间	0.5H
编码时间	15H

过程分析

首先用chrome浏览器打开腾讯视频《在一起》评论页面（不出所料，猜到了这个是下拉型，首先瞄准了Ajax异步爬取）

仔细观察发现，我们发现url两处不同的地方，就是上图的这个v2?=和cursor，下拉发现每一次点击更多评论的下拉框按钮都会出现相应的v2?标签，点开发现了规律，也就是你每翻到下一页的评论url的末尾那一串数字会+1，可是cursor的规律还是没有找到，于是决定去js里面查找，复制其中一个url打开，结果可以说是非常amazing，多试了几次终于发现规律：cursor=？的值存在上面一个JS中

开爬！！！

这里吐槽一句，还是pycharm用的顺手一点，功能贼全，安装库也很简单轻松，spyder和jupyter就算了吧，哈哈...

代码如下，相关知识有些忘了，参考了一下别的大佬的,这里截取我的一部分代码

此时遇到了一些问题，每个页面的第一条爬取不成功，会自动跳到第二条进行爬取，更改了一下j变量为变量j+1

成功爬取相关评论，爬取结束！！！

开始进行数据分析，词条统计，并绘制词云图

注：其实并不一定需要进行词条统计，另一种思路，可以先将评论爬出来，将评论中多余的字符撇去，一样可以进行词云图绘制

关键代码：

这样子就把相关的词频统计出来了，但是之后我用了一种方法出现的词云图会出现问题，就是出现的词的数量并不多如下：

这样子太少了，对比一下其他同学的感觉自己就是个弟弟

所以换了一个代码，并简略了一下，将统计词频与绘制词云图函数功能放在了一起，我用了推特鸟的呈现效果，还是不错的，最终呈现如下效果：

但是老师规定的是要用echarts,所以在参考了相关代码后还是要用词频统计代码进行操作，键值对形式将词频输出，说是用导出json，用sublime最终在页面中呈现效果

之后的git操作因为在上一次的作业中熟悉过了，也就很轻松给弄出来了。

我的天，终于结束了，眼睛盯的电脑疼(」＞＜)」

作业小结反思：

果然，向杨雄老师道歉，学的爬虫知识有一部分换给您了，一开始是想用selenium进行爬取的，愣是不会...，另外对于git方面的知识虽说上一节熟悉了，但是这一次拓展加基础方面的综合还是有些吃力，路遥知马力，我还是要继续努力的。

参考资料

1.Python爬虫实战：爬取腾讯视频的评论

2.Python文本挖掘: 词频统计，词云图

3.使用Git上传文件至Github

4.GitHub分支创建及合并

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 第一次个人编程作业第一次个人编程作业第一次个人编程作业第一次个人编程作业第一次个人编程作业第一次个人编程作业第一次个人编程作业第一次个人编程作业第一次个人编程作业第一次个人编程作业

粤ICP备18138465号 © 2018-2026 CODEPRJ.COM