將爬取的數據保存到mysql中

本文轉載自查看原文 2018-10-18 11:43 2047 Python

為了把數據保存到mysql費了很多周折，早上再來折騰，終於折騰好了

安裝數據庫

1、pip install pymysql(根據版本來裝)

2、創建數據

打開終端鍵入mysql -u root -p 回車輸入密碼

create database scrapy (我新建的數據庫名稱為scrapy)

3、創建表

use scrapy;

create table xiaohua (name varchar(200) ,url varchar(100));

數據庫部分就醬紫啦

4、編寫pipeline

5、編寫setting

6、編寫spider文件

7、爬取數據保存到mysql

scrapy crawl xhwang

之前報錯為2018-10-18 09:05:50 [scrapy.log] ERROR: (1241, 'Operand should contain 1 column(s)')

因為我的spider代碼中是這樣

附一張網上找到的答案

錯誤原因：item中的結果為{'name':[xxx,xxxx,xxxx,xxx,xxxxxxx,xxxxx],'url':[yyy,yyy,yy,y,yy,y,y,y,y,]},這種類型的數據

更正為6下面代碼后出現如下會有重復

然后又查了下原因終於解決問題之所在

在圖上可以看出，爬取的數據結果是沒有錯的，但是在保存數據的時候出錯了，出現重復數據。那為什么會造成這種結果呢？

其原因是由於spider的速率比較快，scrapy操作數據庫相對較慢，導致pipeline中的方法調用較慢，當一個變量正在處理的時候

一個新的變量過來，之前的變量值就會被覆蓋了，解決方法是對變量進行保存，在保存的變量進行操作，通過互斥確保變量不被修改。

在pipeline中修改如下代碼

完成以上設定再來爬取，OK 大功告成（截取部分）

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 Python爬取數據並保存到csv文件中 Python爬蟲:基於Scrapy的淘寶登陸后實現數據爬取並保存到Mysql scrapy將爬取的中文內容保存到json文件中使用pandas中的raad_html函數爬取TOP500超級計算機表格數據並保存到csv文件和mysql數據庫中 Java爬蟲的底層及實現過程（可動手實現爬取京東官網的商品信息數據並保存到數據庫中） spark - 將RDD保存到RMDB(MYSQL)數據庫中爬取淘寶商品數據並保存在excel中 scrapy--將爬取得數據保存到數據庫中 Spark Scala 將數據保存到Mysql 爬蟲爬取疫情數據存到文件