Mongodb去除重復的數據，pymongo去重

本文轉載自查看原文 2018-10-25 11:52 4239

接上一篇的，發現爬斗魚主播信息存入Mongodb數據庫后，發現很多重復的數據，畢竟斗魚不可能有這么多的主播，所以很多頁是有重復的主播房間的。

查了一下怎么去重，發現比較麻煩，與其存入重復的數據后面再去重，還不如在存入數據庫的時候就檢查，不去存入重復的數據，這樣就避免了后期再去做去重工作。於是改動如下：

#-*- coding:utf-8 -*-
#_author:John
#date:2018/10/25 0:07
#softwave: PyCharm
import requests
import json
from multiprocessing import Pool
import pymongo
import datetime

client = pymongo.MongoClient('localhost')
db = client['douyu']
cur_time = datetime.datetime.now().strftime('%Y-%m-%d %H:%M')

def single_page_info(page):
    respones = requests.get('https://www.douyu.com/gapi/rkc/directory/0_0/{}'.format(page))
    datas = json.loads(respones.text)
    items = datas['data']['rl']
    for item in items:
        data = {
            '標題': item['rn'],
            '主播': item['nn'],
            '人氣': item['ol'],
            '類別': item['c2name'],
            '房間號': item['rid'],
            '時間': cur_time
        }
        # 不保存相同時間相同主播名的記錄
        if db['host_info'].update({'主播': data['主播'], '時間': data['時間']}, {'$set': data}, True):
            print('Save to Mongo, {}'.format(data))
        else:
            print('Save to Mong fail, {}'.format(data))
    print('已經完成第{}頁'.format(page))

if __name__ == '__main__':
    pool = Pool()
    #多線程抓200頁
    pool.map(single_page_info, [page for page in range(1, 201)])

這個方法如果碰到基礎數據量很大的情況下相當緩慢，這里是我的一個解決方案

https://www.cnblogs.com/lkd8477604/p/10201137.html

如果是已經存入數據庫的數據，就需要重新遍歷去重后逐條存入新的數據庫中。雖然用了多線程，數據量大的話速度還是挺慢的。

#-*- coding:utf-8 -*-
#_author:John
#date:2018/12/31 14:34
#softwave: PyCharm
import pymongo
from multiprocessing import Pool

client = pymongo.MongoClient('localhost')
db = client['douyu']def save_to_mongo(data):
    db['host_info_new'].update({'主播': data['主播'], '時間': data['時間']}, {'$set': data}, True)
    print(data)
if __name__ == '__main__':
    pool = Pool()
    pool.map(save_to_mongo, [data for data in db['host_info_old'].find()])

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 MongoDB---如何避免插入重復數據（pymongo）使用PyMongo查詢MongoDB數據庫！ LibreOffice去重復數據 sql如何去除重復的數據-好點的 linux(centos8):用uniq去除文本中重復的行(去重) MongoDB數據庫去重 mySql數據重復數據去重 MySQL 查詢重復的數據，以及部分字段去重和完全去重 MySQL之去重（DISTINCT去掉重復數據） Mongodb-- python中使用pymongo連接mongodb數據庫