原文:Python网络爬虫笔记(三):下载博客园随笔到Word文档

一 说明 在上一篇的基础上修改了下,使用lxml提取博客园随笔正文内容,并保存到Word文档中。 操作Word文档会用到下面的模块: pip install python docx 修改的代码 主要是在link crawler 的while循环中增加了下面这段 二 完整代码 delayed.py的代码就不贴出来了,和上一篇一样 限速最好设置大一些 ,下面这句,以秒为单位。 三 结果 四 存在的问 ...

2018-04-10 18:36 0 1644 推荐指数:

查看详情

使用Word2013发布随笔博客园

使用word2013已经很长时间了,今天写一下如何利用word2013发布随笔博客园。 下面是操作步骤: 1.单击"文件"图标,然后单击"新建"。 2.选择"博客文章"模板,双击下载安装。 3.在"注册博客帐户"对话框中,单击"立即注册"以使用 Word 注册博客帐户 ...

Mon Aug 12 04:41:00 CST 2013 6 1844
博客园随笔,文章的区别

随笔:   随笔是一些比较杂乱的技术类东西且有待修改和讨论的文章,假如是原创则只是作者随时提笔写 下的内容,而并没有经过太多的推敲,甚至措辞也没有得到很合理的运用。 文章:   直接获得的有正规性质的文章,或当随笔中的原创经过了讨论、分析和修改后,就可以作为正式的 文章被发表,此为正式 ...

Thu Dec 06 18:05:00 CST 2018 0 631
博客园随笔备份Java脚本

  前言   不知不觉已经写了104篇随笔了,为了避免发生意外造成博客丢失,我们写一个备份脚本对博客进行备份   1、备份格式我们选择md文档格式   2、图片要下载到本地,方便我们统一上传图床   3、博客数据入库,可以用mysql   我们选用Java爬虫神器:HtmlUnit ...

Tue Oct 12 20:20:00 CST 2021 0 119
博客园 文章和随笔区别

之前一直对随笔和文章比较迷惑,不太清楚它们之间的区别,今天仔细了解一下,发现一直误解了这两个概念。 首先从内容上区分一下随笔和文章   随笔内容形式比较随意,往往是作者即兴写的内容;而文章则是作者经过仔细分析,修辞润色后的比较成熟的作品。 然后参照官方的说法   1.文章不可以发布在博客园 ...

Tue Apr 17 07:45:00 CST 2018 4 2657
博客园随笔导出CHM

有过几段时间特别希望能把自己在博客园发布的随笔整理成PDF或CHM之类的电子档。试用了豆约翰博客备份专家、瑞祥博客备份工具、BlogDown、Blog_Backup等备份工具,给我的感觉都不怎样,对于非注册版本导出有限制,而且导出的样式真心觉得丑!最近在博客园看到使用CHM文档 采集随笔(续 ...

Sat Jul 08 21:18:00 CST 2017 20 1007
Python爬虫爬取博客园作业

要求 第一部分: 请分析作业页面,爬取已提交作业信息,并生成已提交作业名单,保存为英文逗号分隔的csv文件。文件名为:hwlist.csv 。 文件内容范例如下形式: 学号,姓 ...

Sat Nov 24 04:06:00 CST 2018 3 588
Python爬虫爬取博客园并保存

Python爬虫爬取博客园并保存 爬取博客园指定用户的文章修饰后全部保存到本地 首先定义爬取的模块文件: crawlers_main.py 执行入口 url_manager.py url管理器 download_manager.py 下载模块 ...

Tue Apr 25 23:03:00 CST 2017 1 1279
python爬虫:将本人博客园文章转化为MarkDown格式

  本周又和大家见面了,首先说一下两周之后要进行研究生的期末考试,所以这次可能是考试之前的最后一更,我要忙着复习了,还请大家见谅,一般情况下我都是每周更新一篇技术原创。   好了,废话不多说,咱们进入今天的主题。由于我在简书也有自己的基地,所以每次在博客园文章更新完,还要在简书进行更新 ...

Tue Jun 21 00:09:00 CST 2016 8 6146
 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM