简单的python2.7基于bs4和requests的爬虫

本文转载自查看原文 2016-07-18 20:02 2204 爬虫

python的编码问题比较恶心。

decode解码
encode编码


在文件头设置

# -*- coding: utf-8 -*-
让python使用utf8.

# -*- coding: utf-8 -*-
__author__ = 'Administrator'
 
from bs4 import BeautifulSoup
import requests
import os
import sys
import io
 
def getHtml(url):
    r = requests.get(url)
    content = r.content.decode('utf8')
    #print(content)
    soup = BeautifulSoup(content)
    print(soup.find_all('h2'))
    print(soup.find_all('p'))
 
if __name__=="__main__":
 
    print(sys.getdefaultencoding())
    print("start.......")
    url = "http://www.jiakaobaodian.com/mnks/exercise/0-c1-kemu1-chengdu.html?id=800000"
    getHtml(url)
    print("end.......")

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 python2.7安装requests Python爬虫bs4解析实战 python3 之 bs4 BeautifulSoup 简单使用 Python爬虫 (一) | 案例及模板简要四步爬取购物网站信息 | 基于 requests、re、 pandas、 bs4 bs4的简单使用爬虫(二)：urllib库文件的基础和进阶（python2.7） Python爬虫BS4库的解析器正确使用方法 python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(2) python爬虫的页面数据解析和提取/xpath/bs4/jsonpath/正则(1) opencv python2.7