網絡爬蟲百度新聞標題及鏈接爬取


1.主題:百度新聞爬取

2.

python代碼:

    

    import requests
    from bs4 import BeautifulSoup
    def getHTMLText(url):
      try:
        r = requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
      except:
        return ""
    def filllist(demo):
      soup=BeautifulSoup(demo,"html.parser")
      for i in soup.find_all("a"):
        list1=i.attrs
        print(i.text,end=' ')
        print(list1['href'])
    def main():
      url="http://news.baidu.com/"
      demo=getHTMLText(url)
      getHTMLText(url)
      filllist(demo)
    main()

代碼完成之后就是這個樣子

 

 

 

3.問題:在代碼編寫過程中,我遇到了很多問題,比如一開始用find函數總是出現錯誤,我也是看大家的代碼才找到正確的打開方式。

    另外開始是這樣的,一下子所有的屬性都打出

    

 

 

 

  我的本意是只要鏈接的那部分屬性,經過反復看視頻和多次的實驗終於解決了這個難題,形成了開頭那個樣子。很開心!

  但是開頭和結尾還是有多余的部分不知道怎么解決,求助!

     

 

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM