作者|LAKSHAY ARORA
編譯|Flin
來源|analyticsvidhya
介紹
隨着互聯網的普及,我們現在正以前所未有的速度生成數據。因為執行任何類型的分析都需要我們從數據庫中收集/查詢必要的數據,所以選擇正確的工具來查詢數據變得至關重要。因此,我們無法想象使用SQL來處理如此大量的數據,因為每個查詢的成本都很高。

這正是MongoDB的用武之地。MongoDB是一個非結構化數據庫,以文檔形式存儲數據。此外,MongoDB能夠非常高效地處理大量數據,並且是使用最廣泛的NoSQL數據庫,因為它提供了豐富的查詢語言以及對數據的靈活而快速的訪問。
在本文中,我們將看到有關如何使用PyMongo查詢MongoDB數據庫的多個示例。此外,我們將看到如何使用比較運算符和邏輯運算符,正則表達式以及聚合管道的基礎知識。
本文是MongoDB初學者教程(https://www.analyticsvidhya.com/blog/2020/02/mongodb-in-python-tutorial-for-beginners-using-pymongo) 的延續,其中我們討論了非結構化數據庫,安裝步驟和MongoDB基本操作的挑戰。因此,如果你是MongoDB的初學者,我建議你先閱讀該文章。
目錄
-
什么是PyMongo?
-
安裝步驟
-
將數據插入數據庫
-
查詢數據庫
- 根據字段過濾
- 根據比較運算符進行過濾
- 基於邏輯運算符的過濾
- 常用表達
- 聚合管道
-
尾注
什么是PyMongo?
PyMongo是一個Python庫,使我們能夠與MongoDB連接。此外,這是MongoDB和Python一起使用的最推薦的方法。
另外,我們選擇Python與MongoDB進行交互,因為它是數據科學中最常用且功能最強大的語言之一。PyMongo允許我們使用類似於字典的語法來檢索數據。
如果你是Python的初學者,我建議你參加此免費課程:Python入門。
安裝步驟
安裝PyMongo非常簡單明了。在這里,我假設你已經安裝了Python 3和MongoDB。以下命令將幫助你安裝PyMongo:
pip3 install pymongo
將數據插入數據庫
現在讓我們進行設置,然后再使用PyMongo查詢MongoDB數據庫。首先,我們將數據插入數據庫。以下步驟將為你提供幫助
- 導入庫並連接到mongo客戶端
在計算機上啟動MongoDB服務器。我假設它正在localhost:27017運行文件。
讓我們開始導入一些我們將要使用的庫。默認情況下,MongoDB服務器在本地計算機上的端口27017上運行。然后,我們將使用pymongo庫連接到MongoDB客戶端。
然后獲取數據庫sample_db的數據庫實例。萬一它不存在,MongoDB將為你創建一個。
# 導入所需的庫
import pymongo
import pprint
import json
import warnings
warnings.filterwarnings('ignore')
# 連接到mongoclient
client = pymongo.MongoClient('mongodb://localhost:27017')
# 獲取數據庫
database = client['sample_db']
- 從JSON文件創建集合
我們將使用在多個城市運營的一家送餐公司的數據。此外,他們在這些城市設有各種配送中心,用於向其顧客發送餐單。你可以在此處下載數據和代碼。
-
weekly_demand:
- id:每個文檔的唯一ID
- week:周號
- center_id:配送中心的唯一ID
- meal_id:餐的唯一ID
- checkout_price:最終價格,包括折扣,稅金和送貨費
- base_price:餐的基本價格
- emailer_for_promotion:發送電子郵件以促進進餐
- homepage_featured:首頁提供的餐點
- num_orders:(目標)訂單數
-
meal_info:
- meal_id:餐的唯一ID
- category:餐食類型(飲料/小吃/湯……)
- cuisine:美食(印度/意大利/…)
然后,我們將在sample_db數據庫中創建兩個集合:
# 創建每周需求收集
database.create_collection("weekly_demand")
# 創建餐食信息
database.create_collection("meal_info")


- 將數據插入集合
現在,我們擁有的數據為JSON格式。然后,我們將獲得集合的實例,讀取數據文件,並使用insert_many函數插入數據。
# 獲取collection weekly_demand
weekly_demand_collection = database.get_collection("weekly_demand")
# 打開weekly_demand json文件
with open("weekly_demand.json") as f:
file_data = json.load(f)
# 將數據插入集合
weekly_demand_collection.insert_many(file_data)
# 獲取總數據點數
weekly_demand_collection.find().count()
# >> 456548
# 獲取收藏餐
meal_info_collection = database.get_collection("meal_info")
# 打開meat_info json文件
with open("meal_info.json") as f:
file_data = json.load(f)
# 將數據插入集合
meal_info_collection.insert_many(file_data)
# 獲取總數據點數
meal_info_collection.find().count()
# >> 51
最后,在weekly_demand_collection中有456548個文檔,在餐信息集合中有51個文檔。現在,讓我們看一下每個集合中的一個文檔。
weekly_demand_collection
weekly_demand_collection.find_one()

膳食信息集
meal_info_collection.find_one()

現在,我們的數據已准備就緒。讓我們繼續查詢該數據庫。
查詢數據庫
我們可以使用帶有查找功能的PyMonfo查詢MongoDB數據庫,以獲取滿足給定條件的所有結果,還可以使用find_one函數,該函數將僅返回滿足條件的一個結果。
以下是find和find_one的語法:
your_collection.find( {<< query >>} , { << fields>>} )
你可以使用以下過濾技術查詢數據庫
- 根據字段過濾
例如,你有數百個字段,而你只想看到其中的幾個。你可以通過將所有必填字段名稱都設置為值1來實現此目的。例如,
weekly_demand_collection.find_one( {}, { "week": 1, "checkout_price" : 1})

另一方面,如果只想從整個文檔中丟棄一些字段,則可以將字段名稱設置為等於0。因此,將僅排除那些字段。請注意,你不能使用1和0的組合來獲取字段。要么全部為一,要么全部為零。
weekly_demand_collection.find_one( {}, {"num_orders" : 0, "meal_id" : 0})

- 過濾條件
現在,在本節中,我們將在第一個大括號中提供一個條件,並在第二個中刪除該字段。因此,它將返回center_id等於55且meal_id等於1885的第一個文檔,並且還將丟棄字段_id和week。
weekly_demand_collection.find_one( {"center_id" : 55, "meal_id" : 1885}, {"_id" : 0, "week" : 0} )

- 根據比較運算符進行過濾
以下是MongoDB中的9個比較運算符。
| 名稱 | 描述 |
| $eq | 它將匹配等於指定值的值。 |
| $gt | 它將匹配大於指定值的值。 |
| $gte | 它將匹配所有大於或等於指定值的值 |
| $in | 它將匹配數組中指定的任何值 |
| $lt | 它將匹配所有小於指定值的值 |
| $lte | 它將匹配所有小於或等於指定值的值 |
| $ne | 它將匹配所有不等於指定值的值 |
| $nin | 它將不匹配數組中指定的任何值 |
以下是使用這些比較運算符的一些示例
- 等於和不等於
我們將找到center_id等於55且homepage_featured不等於0的所有文檔。由於我們將使用find函數,因此它將返回該命令的游標。此外,使用for循環遍歷查詢結果。
result_1 = weekly_demand_collection.find({
"center_id" : { "$eq" : 55},
"homepage_featured" : { "$ne" : 0}
})
for i in result_1:
print(i)

- 在列表中和不在列表中
例如,你需要將一個元素與多個元素匹配。在這種情況下,我們可以使用$ in 運算符,而不是多次使用 $eq運算符。我們將嘗試找出center_id為24或11的所有文檔。
result_2 = weekly_demand_collection.find({
"center_id" : { "$in" : [ 24, 11] }
})
for i in result_2:
print(i)

然后,我們找到所有在指定列表中不存在center_id的文檔。以下查詢將返回center_id不是24也不是11的所有文檔。
result_3 = weekly_demand_collection.find({
"center_id" : { "$nin" : [ 24, 11] }
})
for i in result_3:
print(i)

- 小於和大於
現在,讓我們查找center_id為55並且checkout_price大於100且小於200的所有文檔。為此,請使用以下語法
result_4 = weekly_demand_collection.find({
"center_id" : 55,
"checkout_price" : { "$lt" : 200, "$gt" : 100}
})
for i in result_4:
print(i)

- 基於邏輯運算符的過濾器
| 名稱 | 描述 |
| $and | 它將查詢語句與邏輯連接起來,AND返回同時符合這兩個條件的所有文檔。 |
| $not | 它將反轉查詢的結果,並返回與查詢表達式不匹配的文檔。 |
| $nor | 它將使用邏輯將查詢子句連接起來,NOR返回所有與子句不匹配的文檔。 |
| $or | 它將使用邏輯將查詢子句連接起來,OR返回匹配任一子句條件的所有文檔。 |
以下示例說明了邏輯運算符的用法-
- AND運算符
下面的查詢將返回center_id等於11,餐號不等於1778的文檔。AND運算符的子查詢將出現在列表中。
result_5 = weekly_demand_collection.find({
"$and" : [{
"center_id" : { "$eq" : 11}
},
{
"meal_id" : { "$ne" : 1778}
}]
})
for i in result_5:
print(i)

- 或運算符
以下查詢將返回center_id等於11或餐ID為1207或2707的所有文檔。此外,or運算符的子查詢將位於列表內。
result_6 = weekly_demand_collection.find({
"$or" : [{
"center_id" : { "$eq" : 11}
},
{
"meal_id" : { "$in" : [1207, 2707]}
}]
})
for i in result_6:
print(i)

- 用正則表達式過濾
當你有文本字段並且要搜索具有特定模式的文檔時,正則表達式非常有用。如果你想了解有關正則表達式的更多信息,我強烈建議你閱讀本文:Python正則表達式初學者教程。
它可以與運算符 $regex 一起使用,並且我們可以為運算符提供值,使regex模式變為matc。我們將在該查詢中使用餐信息集,然后找到在美食字段中以C開頭的文檔。
result_7 = meal_info_collection.find({
"cuisine" : { "$regex" : "^C" }
})
for i in result_7:
print(i)

讓我們再來看一個正則表達式的例子。我們將查找所有類別以“ S”開頭且以“ ian ” 結尾的所有文檔。
result_8 = meal_info_collection.find({
"$and" : [
{
"category" : {
"$regex" : "^S"
}},
{
"cuisine" : {
"$regex" : "ian$"
}}
]
})
for i in result_8:
print(i)

- 聚合管道
MongoDB的聚合管道提供了一個框架,可以對數據集執行一系列數據轉換。以下是其語法:
your_collection.aggregate( [ { <stage1> }, { <stage2> },.. ] )
第一個階段將完整的文檔集作為輸入,然后每個隨后的階段都將上一個轉換的結果集作為下一個階段的輸入並產生輸出。
MongoDB匯總中大約有10種轉換可用,在本文中我們將看到$ match和$ group。我們將在即將發表的MongoDB文章中詳細討論每個轉換。
例如,在第一階段,我們將匹配center_id等於11的文檔,在下一階段,它將對center_id等於11的文檔數量進行計數。請注意,我們已經為$count運算符分配了一個值,該值等於第二階段中的total_rows,這是我們希望在輸出中顯示的字段的名稱。
result_9 = weekly_demand_collection.aggregate([
## stage 1
{
"$match" :
{"center_id" : {"$eq" : 11 } }
},
## stage 2
{
"$count" : "total_rows"
}
])
for i in result_9:
print(i)

現在,讓我們再舉一個例子,第一個階段與之前相同,即center_id等於11,在第二個階段中,我們要計算center_id 11的字段num_orders的平均值和center_id 11的唯一meal_ids。
result_10 = weekly_demand_collection.aggregate([
## stage 1
{
"$match" :
{"center_id" : {"$eq" : 11 } }
},
## stage 2
{
"$group" : { "_id" : 0 ,
"average_num_orders": { "$avg" : "$num_orders"},
"unique_meal_id" : {"$addToSet" : "$meal_id"}}
}
])
for i in result_10:
print(i)

尾注
如今, 數據量之大令人難以置信,因此有必要找到更好的替代方法來查詢數據。總而言之,在本文中,我們學習了如何使用PyMongo查詢MongoDB數據庫。此外,我們了解了如何根據所需情況應用各種過濾器。
如果你想了解有關查詢數據的更多信息,我建議你學習以下課程 —— 數據科學的結構化查詢語言(SQL)
在接下來的文章中,我們將詳細討論聚合管道。
感謝閱讀!
原文鏈接:https://www.analyticsvidhya.com/blog/2020/08/query-a-mongodb-database-using-pymongo/
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源匯總站:
http://docs.panchuang.net/
