1.主題:百度新聞爬取
2.
python代碼:
import requests
from bs4 import BeautifulSoup
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def filllist(demo):
soup=BeautifulSoup(demo,"html.parser")
for i in soup.find_all("a"):
list1=i.attrs
print(i.text,end=' ')
print(list1['href'])
def main():
url="http://news.baidu.com/"
demo=getHTMLText(url)
getHTMLText(url)
filllist(demo)
main()
代碼完成之后就是這個樣子
3.問題:在代碼編寫過程中,我遇到了很多問題,比如一開始用find函數總是出現錯誤,我也是看大家的代碼才找到正確的打開方式。
另外開始是這樣的,一下子所有的屬性都打出
我的本意是只要鏈接的那部分屬性,經過反復看視頻和多次的實驗終於解決了這個難題,形成了開頭那個樣子。很開心!
但是開頭和結尾還是有多余的部分不知道怎么解決,求助!