初学Python,用python写的一个简单爬虫,爬取自己博客园上面的所有文章。 爬取后的网页会保存在项目的根目录下,暂时未支持js、css等文件的爬取,所以页面显示效果会比较差。 ...
最近在学 python 爬虫,所以拿自己的博客开刀,作为一次简单的 Python 爬虫实践。 Python 爬虫脚本的功能: 获得所有的文章标题和地址 获得右侧公告栏里的个人信息。 运行的结果 先打印公告中的个人信息和文章的总数,接着列出所有的文章。截图只是开头的一部分。 这个脚本有什么用呢 备份。以前我使用网上的软件备份自己QQ空间的日志,需要在软件上登录自己的账号,风险很大。 源码 get a ...
2016-04-17 17:52 2 3894 推荐指数:
初学Python,用python写的一个简单爬虫,爬取自己博客园上面的所有文章。 爬取后的网页会保存在项目的根目录下,暂时未支持js、css等文件的爬取,所以页面显示效果会比较差。 ...
本人产地:江苏盐城,来到苏州已经四年了。两年前在苏州的北大青鸟学习了IT的技术,主要学习了.NET的技术,去年是2012年,还记得大家在2012年的最后一天都写了自己的博客在博客园上面记录这传说中的2012。那天看了很多人的博客,觉得大家作为一个IT人真的有很多的不容易,但是那天我没有记录一下 ...
Python博客园-获取某个博主所有文章的URL列表 首先,我们来分析一下,在博主的首页里,每个文章的标题在网页源码中是什么样子的。 【插入图片,文章标题1】 【插入图片,文章标题2】 通过这两个图片我们可以看出,博文标题所在的标签为,并且具有class属性为"postTitle2 ...
很开心,我也成为了博客园的一员! 做为一个技术人员,对cdsn、度娘、谷狗、豆丁都应用转多,但是最近总是与博客园不期而遇,内容丰富,阅读便利,随转随得。 真心喜欢 就来了。 期待与博客员的童鞋相互关注,互相分享,出现更多良师益。 下面为了凑字,来个简短自我介绍: 我是一个 ...
终于要有自己的博客,可以记录工作、学习经验,与博友们学习分享知识; 然后在注册博客园时遇到一点问题,百度搜索解决答案无果,最后打网站电话才解决,浪费了一些时间,同时对网站激活账号方式用户感受略差,记录如下问题,一来希望网站改进,二来帮助可能会遇到类似问题朋友怎么快速解决。 进入正题 ...
本周又和大家见面了,首先说一下两周之后要进行研究生的期末考试,所以这次可能是考试之前的最后一更,我要忙着复习了,还请大家见谅,一般情况下我都是每周更新一篇技术原创。 好了,废话不多说,咱们进入今天的主题。由于我在简书也有自己的基地,所以每次在博客园文章更新完,还要在简书进行更新 ...
互联网时代里,网络爬虫是一种高效地信息采集利器,可以快速准确地获取网上的各种数据资源。本文使用Python库requests、Beautiful Soup爬取博客园博客的相关信息,利用txt文件转存。 基础知识: 网络爬虫是一种高效地信息采集利器,利用它可以快速、准确地采集互联网上的各种数 ...
#python.py from bs4 import BeautifulSoup import urllib.request from MySqlite import MySqlite global g_intid g_intid=0 def GetBlogTileAndName(url ...