标签【数据抓取】

Web Scraper 是一款免费的，适用于普通用户（不需要专业 IT 技术的）的爬虫工具，可以方便的通过鼠标和简单配置获取你所想要数据。例如知乎回答列表、微博热门、微博评论、淘宝、天猫、亚马逊 ...

以下内容仅供学习交流使用，请勿做他用，否则后果自负。一、 System.Net.Http.HttpClient简介 System.Net.Http 是微软.net4.5中推出的HTTP ...

如果用知乎,可以关注专栏:.NET开源项目和PowerBI社区重点重点：我没有买股票，没有买股票，股市是个坑，小心割韭菜哦。本文的初衷是数据分析(分析结果就不说了，就是想看看筛选点数 ...

　　今天做项目的时候遇到这样一个需求，需要在网页上展示今日黄历信息，数据格式如下　　公历时间：2016年04月11日星期一　　农历时间：猴年三月初五　　天干地支：丙申年壬辰月 ...

C#使用Selenium+PhantomJS抓取数据

手头项目需要抓取一个用js渲染出来的网站中的数据。使用常用的httpclient抓回来的页面是没有数据。上网百度了一下，大家推荐的方案是使用PhantomJS。PhantomJS是一个没有界面的web ...

浅谈数据抓取的几种方法

在下抓数据也小有研究，现分享几个自己研究出来的抓数据的技术，可能会有很多不足的地方，欢迎大家指正补充哈哈！方法一：直接抓取网页源码优点：速度快。缺点：1，正由于速度快，易被服务器端检测，可能会限制当前 ...

JsoupXpath (https://github.com/zhegexiaohuozi/JsoupXpath)是一款纯Java开发的使用xpath解析提取html内容的解析器，xpath语法分析与 ...

参考了DotNetSpider示例，感觉DotNetSpider太重了，它是一个比较完整的爬虫框架。对比了以下各种无头浏览器，最终采用PuppeteerSharp+AngleSharp写一个爬虫示 ...

　　背景　　在HTTP协议的定义中，采用了一种机制来记录客户端和服务器端交互的信息，这种机制被称为cookie，cookie规范定义了服务器和客户端交互信息的格式、生存期、使用范围、安全性。　 ...

以下内容仅供学习交流使用，请勿做他用，否则后果自负。一.使用的技术这个爬虫是近半个月前学习爬虫技术的一个小例子,比较简单,怕时间久了会忘,这里简单总结一下.主要用到的外部Jar包有Htt ...