redis数据库属于非关系型数据库,数据存放在内存堆栈中,效率比较高。
其存储数据是以json格式字符串存储字典的,而类似的关系型数据库无法实现这种数据的存储。
在爬取数据时,将数据暂存到redis中,等数据采集完成后,在从redis里将数据读取,并写入mysql数据库中。
在数据采集方面不在多说,只需将项目settings文件下的pipelines管道文件里的本地数据管道注释,让redis来接收数据即可。
从redis写数据入mysql的代码实现:
其实就是一个独立的python脚本文件
import redis import pymysql import json,re def table_exists(con, table_name): # 判断数据表是否已经创建
sql = 'show tables;' con.execute(sql) tables = [con.fetchall()] table_list = re.findall('(\'.*?\')', str(tables)) table_list = [re.sub("'", '', each) for each in table_list] # 遍历并获得数据库表
if table_name in table_list: return 1 # 创建了返回1
else: return 0 # 不创建返回0
def process_item(): #redis数据库创建连接池对象 并实例化一个连接
pool=redis.ConnectionPool(host='127.0.0.1',port=6379,db=0,password='123456') redis_cli=redis.Redis(connection_pool=pool) #创建mysql数据库连接
conn=pymysql.connect(user='root', # 用户名
password='1234', # 密码
db='lgweb', # 数据库名
host='127.0.0.1', # 地址
port=3306, charset='utf8') table_name = 'db_read' # 数据库表
# 没有对应数据库表则创建
if (table_exists(conn.cursor(),table_name) != 1): sql = 'create table db_read(书名 VARCHAR (30),作者 VARCHAR (30),评分 VARCHAR (10),类型 VARCHAR (30),状态 VARCHAR (30),简介 VARCHAR (50),详情 VARCHAR (1000),最新章节 VARCHAR (50),封面 VARCHAR (100))' conn.cursor().execute(sql) # 不存在则创建数据库表
offset=0 while True: #将数据从redis里pop出来
source,data=redis_cli.blpop("read:items") #将redis字符串转为格式化的字典
item=json.loads(data) #创建数据库游标
cursor=conn.cursor() sql = "insert into db_read(书名,作者,评分,类型,状态,简介,详情,最新章节,封面)VALUES ('%s','%s','%s','%s','%s','%s','%s','%s','%s')" % ( item['book_name'],item['author'],item['score'],item['type'],item['state'],item['about'],item['story'],item['news'],item['photo']) cursor.execute(sql) #执行数据插入
conn.commit() #提交记录
cursor.close() #关闭游标
offset+=1
print("正在保存第:"+str(offset)+"条记录") if __name__ == '__main__': process_item()
redis数据库采用数据池连接的方式,更高效更方便。