網絡爬蟲百度新聞標題及鏈接爬取

本文轉載自查看原文 2020-05-03 08:45 605

1.主題：百度新聞爬取

python代碼：

　　　　import requests
　　　　from bs4 import BeautifulSoup
　　　　def getHTMLText(url):
　　　　　　try:
　　　　　　　　r = requests.get(url,timeout=30)
　　　　　　　　r.raise_for_status()
　　　　　　　　r.encoding = r.apparent_encoding
　　　　　　　　return r.text
　　　　　　except:
　　　　　　　　return ""
　　　　def filllist(demo):
　　　　　　soup=BeautifulSoup(demo,"html.parser")
　　　　　　for i in soup.find_all("a"):
　　　　　　　　list1=i.attrs
　　　　　　　　print(i.text,end=' ')
　　　　　　　　print(list1['href'])
　　　　def main():
　　　　　　url="http://news.baidu.com/"
　　　　　　demo=getHTMLText(url)
　　　　　　getHTMLText(url)
　　　　　　filllist(demo)
　　　　main()

代碼完成之后就是這個樣子

3.問題：在代碼編寫過程中，我遇到了很多問題，比如一開始用find函數總是出現錯誤，我也是看大家的代碼才找到正確的打開方式。

　　　　另外開始是這樣的，一下子所有的屬性都打出

　　我的本意是只要鏈接的那部分屬性，經過反復看視頻和多次的實驗終於解決了這個難題，形成了開頭那個樣子。很開心！

　　但是開頭和結尾還是有多余的部分不知道怎么解決，求助！

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 網絡爬蟲之爬取百度新聞鏈接 python3爬蟲-爬取新浪新聞首頁所有新聞標題【Python網絡爬蟲四】通過關鍵字爬取多張百度圖片的圖片 python爬蟲：使用urllib.request和BeautifulSoup抓取新浪新聞標題、鏈接和主要內容百度網盤爬蟲（如何爬取百度網盤）百度圖片爬蟲-python版-如何爬取百度圖片? 02_輸入檢索詞自動爬取百度搜索頁標題信息爬蟲實戰(一) 用Python爬取百度百科 python 爬取百度圖片利用python的爬蟲技術爬取百度貼吧的帖子