python爬蟲:將本人博客園文章轉化為MarkDown格式

本文轉載自查看原文 2016-06-20 16:09 6146 爬蟲/ Python爬蟲開發/ python/ web/ BeautifulSoup/ Html

　　本周又和大家見面了，首先說一下兩周之后要進行研究生的期末考試，所以這次可能是考試之前的最后一更，我要忙着復習了，還請大家見諒，一般情況下我都是每周更新一篇技術原創。

　　好了，廢話不多說，咱們進入今天的主題。由於我在簡書也有自己的基地，所以每次在博客園文章更新完，還要在簡書進行更新。由於簡書文章的編輯格式是MarkDown，所以前幾次更新修改格式都是非常麻煩，浪費時間，尤其是有了圖片之后。於是，為了不讓自己的時間浪費在這么無聊的事情上，我就用學到的爬蟲知識，對我寫的文章進行格式的轉化(當然我只是按照我文章的格式進行解析的，不具有通用性，之后可以完善通用性)。

　　咱們就按照我寫的上面文章Scrapy爬取美女圖片第四集突破反爬蟲(上)為例，進行格式的轉化。

　　來到這個界面:

　　你會發現文章中主要包含這幾種特殊對象: 段落文本(有顏色和無顏色之分),圖片(主要是提取圖片鏈接)，代碼框中的代碼。所以咱們需要對這幾種對象進行分別提取和轉化。

　　老規矩，打開firebug,輸入鏈接，這次不僅需要觀察HTML結構，還要觀察網絡這個選項，捕獲這個get請求，會發現很大的不同。

　　同樣是表現的代碼內容，發現網絡請求返回的標簽和最后生成的標簽是不一樣的。這就是通過javascript動態修改html。那咱們該以什么為准呢？當然是以網絡請求的格式為准，因為在實際的網絡訪問中就是獲取的這個內容。

　　通過上面的可以看到代碼都是由pre標簽進行包裹，其他內容都是由p標簽進行包裹。所以為了統一格式，先將獲取到的pre標簽換成p標簽,並添加code屬性進行區分。當然用到的還是bs4這個神器。直接看一下代碼:

        soup = BeautifulSoup(response)#,'html.parser',from_encoding='utf-8'
        pres = soup.findAll('pre')
        for pre in pres:
            pre.name ='p'  
            pre['code']='yes'

　　首先提取其中圖片的鏈接,並按照標簽的順序添加到list中存儲:

        ps = soup.findAll('p')
        for p in ps:
            img = p.img
            if img !=None:
                self.content={'tag':'img','content':img['src']}
                self.papers.append(self.content)

　　接着提取code的代碼內容，並按照標簽的順序添加到list中存儲:

            if p.get('code')=='yes':
                self.content={'tag':'code','content':p.text.replace('&nbsp:','').strip()}
                self.papers.append(self.content)

　　然后將正常段落中的顏色部分進行標注，我習慣是將加顏色的文字，最后轉化為加粗形式。從格式中看到，加顏色的字體使用span標簽進行包裹的。

　　咱們將標簽進行替換和標注，以便后續處理。

            elif p.span != None:
                spans = p.findAll('span')#找到所有的span標簽
                for span in spans:
                    # print span.text
                    if span.get('style').find('color')!=-1:
                        # del span['style']
                        # span.name='color'
                        if span.string!=None:
                            span.string = 'c_start'+span.string+'c_end' #對有顏色的文本進行標注

　　有時候會發現，文本中有鏈接，咱們還要把鏈接進行按次序提取。

links =p.findAll('a')
                for link in links:
                    if link.string!=None:
                        link.string = '['+link.string+']'+'('+link.string+')'
                self.content={'tag':'text','content':p.text.replace('&nbsp:','').strip()} self.papers.append(self.content)

　　經過這幾個步驟就將所有要提取的內容都分離出來了，接下來進行轉化為markdown格式。

#coding:utf-8

class Convert(object):
    @classmethod
    def convert(self,papers):
        str = ''
        with open('D:\markdown.txt','w') as file_writer:
            for p in papers:
                if p['tag']=='text':
                    str = p['content'].replace('c_start','**').replace('c_end','**')  #這個是替換顏色,使用加粗
                    pass
                elif p['tag']=='code':
                    str = '```'+'\r\n'+p['content']+'\r\n'+'```'  #這個是代碼框的添加

                else:
                    #![](//upload-images.jianshu.io/upload_images/1823443-7c4c920514b8f0cf.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)#這個是圖片鏈接的轉化
                    str = '![](%s)'%(p['content'])
                    str = '\r\n'+str+'\r\n'

                file_writer.write(str.encode('utf-8'))
                file_writer.write('\r\n'.encode('utf-8'))

        file_writer.close()

　　最后咱們看一下效果，將生成的markdown文本復制到簡書上去，是否顯示正確。這個就是最后簡書文章鏈接:http://www.jianshu.com/p/9159111bcd87。效果還是不錯的，可能需要一些微調，以前整理格式要花10幾分鍾，不超過兩分鍾就搞定

　　完整的代碼我已經上傳到github上:
　　https://github.com/qiyeboy/html2Md

　　今天的分享就到這里，如果大家覺得還可以呀，記得推薦呦。

　　歡迎大家支持我公眾號:

本文章屬於原創作品,歡迎大家轉載分享。尊重原創,轉載請注明來自:七夜的故事 http://www.cnblogs.com/qiyeboy/

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 博客園上傳markdown格式文章博客園文章markdown實現博客園文章方塊背景格式用Python向博客園發布新文章博客園 markdown 設置用Markdown在博客園寫博客 [開源] 分享導出博客園文章成本地 Markdown 文件存儲的工具博客園文章編輯器5.0版本發布（markdown版） Python爬蟲爬取博客園作業 Python爬蟲爬取博客園並保存