Python3爬虫之爬取某一路径的所有html文件

本文转载自查看原文 2018-06-27 17:46 3423 通用实践/ 爬虫/ java经验集锦/ 架构设计/ 工作总结/ Python

要离线下载易百教程网站中的所有关于Python的教程，需要将Python教程的首页作为种子url：http://www.yiibai.com/python/，然后按照广度优先（广度优先，使用队列；深度优先，使用栈），依次爬取每一篇关于Python的文章。为了防止同一个链接重复爬取，使用集合来限制同一个链接只处理一次。
使用正则表达式提取网页源码里边的文章标题和文章url，获取到了文章的url，使用Python根据url生成html文件十分容易。


   
   
  
   
    
     
      
     
     
      
      import re 
      
     
    
     
      
     
     
      
      import urllib.request 
      
     
    
     
      
     
     
      
      import urllib 
      
     
    
     
      
     
     
      
      from collections 
      import deque 
      
     
    
     
      
     
     
      
      # 保存文件的后缀 
      
     
    
     
      
     
     
     
       SUFFIX= 
      '.html' 
      
     
    
     
      
     
     
      
      # 提取文章标题的正则表达式 
      
     
    
     
      
     
     
     
       REX_TITLE= 
      r'<title>(.*?)</title>' 
      
     
    
     
      
     
     
      
      # 提取所需链接的正则表达式 
      
     
    
     
      
     
     
     
       REX_URL= 
      r'/python/(.+?).html' 
      
     
    
     
      
     
     
      
      # 种子url，从这个url开始爬取 
      
     
    
     
      
     
     
     
       BASE_URL= 
      'http://www.yiibai.com/python/' 
      
     
    
     
      
     
     
      
      
     
    
     
      
     
     
      
      
     
    
     
      
     
     
      
      # 将获取到的文本保存为html文件 
      
     
    
     
      
     
     
      
      def saveHtml(file_name,file_content): 
      
     
    
     
      
     
     
      
      #    注意windows文件命名的禁用符，比如 / 
      
     
    
     
      
     
     
     
           
      with open (file_name.replace( 
      '/', 
      '_')+SUFFIX, 
      "wb") 
      as f: 
      
     
    
     
      
     
     
      
      #   写文件用bytes而不是str，所以要转码 
      
     
    
     
      
     
     
     
               f.write(bytes(file_content, encoding = 
      "utf8")) 
      
     
    
     
      
     
     
      
      #   获取文章标题 
      
     
    
     
      
     
     
      
      def getTitle(file_content): 
      
     
    
     
      
     
     
     
           linkre = re.search(REX_TITLE,file_content) 
      
     
    
     
      
     
     
     
           
      if(linkre): 
      
     
    
     
      
     
     
     
               print( 
      '获取文章标题：'+linkre.group( 
      1)) 
      
     
    
     
      
     
     
     
               
      return linkre.group( 
      1) 
      
     
    
     
      
     
     
     
         
      
     
    
     
      
     
     
      
      #   爬虫用到的两个数据结构，队列和集合 
      
     
    
     
      
     
     
     
       queue = deque() 
      
     
    
     
      
     
     
     
       visited = set() 
      
     
    
     
      
     
     
      
      #   初始化种子链接  
      
     
    
     
      
     
     
     
       queue.append(BASE_URL) 
      
     
    
     
      
     
     
     
       count = 
      0 
      
     
    
     
      
     
     
     
         
      
     
    
     
      
     
     
      
      while queue: 
      
     
    
     
      
     
     
     
         url = queue.popleft()   
      # 队首元素出队 
      
     
    
     
      
     
     
     
         visited |= {url}   
      # 标记为已访问 
      
     
    
     
      
     
     
     
         
      
     
    
     
      
     
     
     
         print( 
      '已经抓取: ' + str(count) + 
      '   正在抓取 <---  ' + url) 
      
     
    
     
      
     
     
     
         count += 
      1 
      
     
    
     
      
     
     
     
         urlop = urllib.request.urlopen(url) 
      
     
    
     
      
     
     
     
         
      # 只处理html链接 
      
     
    
     
      
     
     
     
         
      if 
      'html' 
      not 
      in urlop.getheader( 
      'Content-Type'): 
      
     
    
     
      
     
     
     
           
      continue 
      
     
    
     
      
     
     
     
         
      
     
    
     
      
     
     
     
         
      # 避免程序异常中止 
      
     
    
     
      
     
     
     
         
      try: 
      
     
    
     
      
     
     
     
           data = urlop.read().decode( 
      'utf-8') 
      
     
    
     
      
     
     
     
           title=getTitle(data); 
      
     
    
     
      
     
     
     
           
      # 保存文件 
      
     
    
     
      
     
     
     
           saveHtml(title,data) 
      
     
    
     
      
     
     
     
         
      except: 
      
     
    
     
      
     
     
     
           
      continue 
      
     
    
     
      
     
     
     
         
      
     
    
     
      
     
     
     
         
      # 正则表达式提取页面中所有链接, 并判断是否已经访问过, 然后加入待爬队列 
      
     
    
     
      
     
     
     
         linkre = re.compile(REX_URL) 
      
     
    
     
      
     
     
     
         
      for sub_link 
      in linkre.findall(data): 
      
     
    
     
      
     
     
     
             sub_url=BASE_URL+sub_link+SUFFIX; 
      
     
    
     
      
     
     
      
      # 已经访问过，不再处理 
      
     
    
     
      
     
     
     
             
      if sub_url 
      in visited: 
      
     
    
     
      
     
     
     
                 
      pass 
      
     
    
     
      
     
     
     
             
      else: 
      
     
    
     
      
     
     
     
                 
      # 设置已访问 
      
     
    
     
      
     
     
     
                 visited |= {sub_url} 
      
     
    
     
      
     
     
     
                 
      # 加入队列 
      
     
    
     
      
     
     
     
                 queue.append(sub_url) 
      
     
    
     
      
     
     
     
                 print( 
      '加入队列 --->  ' + sub_url)

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 python3爬虫爬取动漫视频 python3爬虫-爬取58同城上所有城市的租房信息【Python3 爬虫】U39_selenium爬取拉勾网并将数据存储到csv文件利用python3爬虫爬取漫画岛-非人哉漫画 Python3爬虫爬取淘宝商品数据 Python3爬虫（十三）爬取动态页之Selenium 爬虫实战【1】使用python爬取博客园的某一篇文章 python爬虫（爬取视频） python爬虫之爬取小说（一） python爬虫之爬取音频