原文:利用python对新浪微博用户标签进行分词并推荐相关用户

新浪微博的开放平台的开发者日益活跃,除了商业因素外还有很大的一股民间工程师力量 大量热衷于群体行为研究与自然语言处理以及机器学习和数据挖掘的研究者 and 攻城师们开始利用新浪真实的数据和平台为用户提供更好的应用或者发现群体的行为规律包括一些统计信息,本文就是利用新浪开放平台提供的API对微博的用户标签进行分词处理,然后根据分词后的关键字给用户推荐感兴趣的人,在此记录下以备后用。 requisi ...

2012-12-14 22:50 2 2637 推荐指数:

查看详情

运用Python爬取新浪用户的信息

源代码:https://github.com/dataabc/weiboSpider 本程序可以连续爬取一个或多个新浪用户的数据,并将结果信息写入文件或数据库。此处作为论文数据应用。 首先进入GitHub下载代码至本地。 将该程序导入进PyCharm,此处的readme类似说明书 ...

Sat Jan 29 01:47:00 CST 2022 0 1132
零授权 抓取新浪任何用户内容

一、API   使用API获取数据是最简单方便,同时数据完整性高的方式,缺点是开发平台对于API的调用次数做了严格的限制。具体使用过程参考http://open.weibo.com/,有详细的教程,对于API次数的限制,我们是通过注册多个开发者账号来绕过,对于某个IP调用API次数 ...

Sun Aug 14 20:57:00 CST 2016 0 6435
Python项目】爬取新浪个人用户信息页

用户信息爬虫 项目链接:https://github.com/RealIvyWong/WeiboCrawler/tree/master/WeiboUserInfoCrawler 1 实现功能 这个项目是用来根据用户id爬取用户信息的数据,并写入sqlite数据库。 而这个用户id ...

Tue Dec 18 01:39:00 CST 2018 0 1258
新浪搜索页用户信息爬取

在成功登陆之后,我们可以进行下一波操作了~ 接下来,我们的目的是通过输入关键字,找到相关用户,并收集用户的一些基本信息 环境 tools 1、chrome及其developer tools 2、python3.6 3、pycharm Python3.6中使用的库 ...

Sat Jan 20 23:32:00 CST 2018 3 5740
java——模拟新浪用户注册

1.创建用户类,重写HashCode()和equals()方法: 2.创建用户注册类: 3.创建校验信息类: ...

Sun Sep 09 19:31:00 CST 2018 0 2274
基于LDA对关注的用户进行聚类

最近看了LDA以及文本聚类的一些方法,写在这里算是读书笔记。文章最后进行了一个小实验,通过爬取本人在上关注的人的利用的内容,尝试将我关注的人按主题进行进行聚类。 文本聚类就是把一个文本集分成一定数量的簇(Cluster),使每个簇内的文本之间具有较大的相似性,而使簇间的文本具有较大 ...

Fri Jun 07 03:55:00 CST 2013 5 1649
Scrapy爬取新浪移动版用户首页第一条

大家好,本月第一次更新。 最近找了一份关于爬虫的实习工作,需要爬取较大量的数据,这时就发现通过自己编写函数来实现爬虫效率太慢了;于是又转回来用scrapy,以前稍微学习了一下,这次刚好爬爬练练手,而后再使用部分数据生成词云。 本次爬取的是新浪移动端(https://m.weibo.cn ...

Sun May 12 23:27:00 CST 2019 0 479
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM