爬取下廚房網站菜名與食材

本文轉載自查看原文 2019-03-21 10:04 516 爬蟲

方法一：

import requests
# 引用requests庫
from bs4 import BeautifulSoup
# 引用BeautifulSoup庫

res_foods = requests.get('http://www.xiachufang.com/explore/')
# 獲取數據
bs_foods = BeautifulSoup(res_foods.text,'html.parser')
# 解析數據
list_foods = bs_foods.find_all('div',class_='info pure-u')
# 查找最小父級標簽

list_all = []
# 創建一個空列表，用於存儲信息

for food in list_foods:

    tag_a = food.find('a')
    # 提取第0個父級標簽中的<a>標簽
    name = tag_a.text[17:-13]
    # 菜名，使用[17:-13]切掉了多余的信息
    URL = 'http://www.xiachufang.com'+tag_a['href']
    # 獲取URL
    tag_p = food.find('p',class_='ing ellipsis')
    # 提取第0個父級標簽中的<p>標簽
    ingredients = tag_p.text[1:-1]
    # 食材，使用[1:-1]切掉了多余的信息
    list_all.append([name,URL,ingredients])
    # 將菜名、URL、食材，封裝為列表，添加進list_all

for i in list_all:
    print (i)
    # 打印



方法二：

import requests
# 引用requests庫 from bs4 import BeautifulSoup # 引用BeautifulSoup庫 res_foods = requests.get('http://www.xiachufang.com/explore/') # 獲取數據 bs_foods = BeautifulSoup(res_foods.text,'html.parser') # 解析數據 tag_name = bs_foods.find_all('p',class_='name') # 查找包含菜名和URL的<p>標簽 tag_ingredients = bs_foods.find_all('p',class_='ing ellipsis') # 查找包含食材的<p>標簽 list_all = [] # 創建一個空列表，用於存儲信息 for x in range(len(tag_name)): # 啟動一個循環，次數等於菜名的數量 list_food = [tag_name[x].text[18:-14],tag_name[x].find('a')['href'],tag_ingredients[x].text[1:-1]] # 提取信息，封裝為列表。注意此處[18:-14]切片和之前不同，是因為此處使用的是<p>標簽，而之前是<a> list_all.append(list_food) # 將信息添加進list_all

for i in list_all:
    print (i)
    # 打印

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 python--爬蟲學習4：項目練習（下廚房）程序員下廚房入門---好好照顧自己《下廚房》軟件系統需求分析報告（第三版） CSP202012-4食材運輸 70分暴力解法 CSP202012-4 食材運輸（70分）分享一個多方式精確爬取下載某小說網站上萬本小說的自寫爬蟲腳本 scrapy 在爬取過程中抓取下載圖片 Python 視頻、圖片、音頻爬取下載 you-get 利用爬蟲將Yuan先生的博客文章爬取下來爬取網站視頻