标签【Java爬虫】 - 码上欢乐

Java爬虫系列三：使用Jsoup解析HTML

在上一篇随笔《Java爬虫系列二：使用HttpClient抓取页面HTML》中介绍了怎么使用HttpClient进行爬虫的第一步--抓取页面html，今天接着来看下爬虫的第二步--解析抓取到的html ...

爬虫要想爬取需要的信息，首先第一步就要抓取到页面html内容，然后对html进行分析，获取想要的内容。上一篇随笔《Java爬虫系列一：写在开始前》中提到了HttpClient可以抓取页面内容。今天 ...

　　　　今天在学习爬虫的时候想着学习一下利用jsoup模拟登录。下面分为有验证码和无验证码的情况进行讨论。 ---------------------------无验证码的情况------ ...

Jsoup爬取带登录验证码的网站

　　今天学完爬虫之后想的爬一下我们学校的教务系统，可是发现登录的时候有验证码。因此研究了Jsoup爬取带验证码的网站: 大体的思路是:(需要注意的是__VIEWSTATE一直变化，所以我 ...

一直很想了解一下爬虫这个东西的，完全是出于兴趣，其实刚开始是准备用python的，但是由于种种原因选择了java,此处省略很多字... 总之，如果你想做一件事情的话就尽快去做吧，千万不要把战线拉得太长 ...

背景应该是在去年的时候，刷知乎看到一个问题，大概是说怎么刷网易云音乐个人累计听歌数，然后有一个高赞回答，贴了一段js代码，直接在浏览器console执行就可以了。当时试了下，直接一下子刷了有好几万 ...

在之前的系列文章中介绍了如何使用httpclient抓取页面html以及如何用jsoup分析html源文件内容得到我们想要的数据，但是有时候通过这两种方式不能正常抓取到我们想要的数据，比如看如下例子。 ...

Java 网络爬虫，就是这么的简单

这是 Java 网络爬虫系列文章的第一篇，如果你还不知道 Java 网络爬虫系列文章，请参看学 Java 网络爬虫，需要哪些基础知识。第一篇是关于 Java 网络爬虫入门内容，在该篇中我们以采集虎扑 ...

Java爬虫爬取京东商品信息

<strong> java<em style=“color：red;”>爬虫</em></strong>工具:Jsoup Maven地址 <d ...

Java爬虫框架--WebMagic

WebMagic框架教程 http://webmagic.io/docs/zh/ 爬取世纪佳缘小姐姐信息 dao层爬虫框架持久层爬虫框架数据筛选逻 ...