使用sqlalchemy用orm方式寫pipeline將scrapy item快速存入 MySQL


傳統的使用scrapy爬下來的數據存入mysql,用的是在pipeline里用pymysql存入數據庫,

這種方法需要寫sql語句,如果item字段數量非常多的 情況下,編寫起來會造成很大的麻煩.

我使用的python 庫:sqlalchemy來編寫,用orm的方式,使代碼變得非常簡潔,按照數據庫

表的字段,編寫好自己的類,在settings里面設置好pipeline即可.

# -*- coding: utf-8 -*-
 
# author:lihansen
 
from sqlalchemy import create_engine,Column,Integer,String,Table,MetaData
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy.orm import sessionmaker
 
class ArticleTemplate():
    id = Column(Integer, primary_key=True)#主鍵自增
    sourceName = Column(String(100))
    sourceUrl = Column( String(100))
    articleUrl = Column( String(100))
    articleCategory = Column( String(100))
    articleFromName = Column( String(100))
    articleFromUrl = Column( String(100))
    articleLabel = Column( String(100))
    title = Column( String(200))
    author = Column( String(100))
    publishTime = Column( String(100))
    articleContent = Column( String(10000))
    imageUrlList = Column( String(300))
    imageTitleList = Column( String(100))
 
    def __init__(self, **items):
        for key in items:
            if hasattr(self,key):
                setattr(self,key,items[key])
 
 
class ArticleSpidersPipeline(object):
 
    def __init__(self):#執行爬蟲時
        self.engine = create_engine('mysql://root:0@localhost:3306/spider?charset=utf8',echo=True)#連接數據庫
        self.session=sessionmaker(bind=self.engine)
        self.sess=self.session()
        Base = declarative_base()
	#動態創建orm類,必須繼承Base, 這個表名是固定的,如果需要為每個爬蟲創建一個表,請使用process_item中的
        self.Article = type('article_articletest',(Base,ArticleTemplate),{'__tablename__':'article_article'})
 
 
    def process_item(self,item,spider):#爬取過程中執行的函數
	#按照爬蟲名動態創建一個類
        # if not hasattr(self,spider.name):
        #     self.Article = type(spider.name, (Base, ArticleTemplate), {'__tablename__': spider.name, })
        #在數據庫中創建這個表
        # if spider.name not in self.engine.table_names(): #create table for this spider
        #     self.Article.metadata.create_all(self.engine)
 
        self.sess.add(self.Article(**item))
        self.sess.commit()
 
 
    def close_spider(self, spider):#關閉爬蟲時
        self.sess.close()

  


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM