BeautifulSoup去除html中的标签，获取文本

本文转载自查看原文 2018-08-09 11:40 5118 python

In [1]: from bs4 import BeautifulSoup

In [2]: s = '''<div class="markdown_views">
...: <p>BeautifulSoup是Python的一个库，最主要的功能就是从网页
...: 爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理，全部页面转变
...: 为字典或者数组，相对于正则表达式的方式，可以大大简化处理过程。</p>
...:
...: <h3 id="0x01-安装"><a name="t0"></a>0x01 安装</h3>
...:
...: <p>建议安装BeautifulSoup 4版本利用pip进行安装:</p>'''

In [4]: bs = BeautifulSoup(s,"html.parser")

In [5]: print(bs.text)
---------------------------------------------------------------------------
UnicodeEncodeError Traceback (most recent call last)
<ipython-input-5-0ea5f8e54d3a> in <module>()
----> 1 print(bs.text)

UnicodeEncodeError: 'ascii' codec can't encode character u'\u662f' in position 14: ordinal not in range(128)

In [15]: import sys

In [16]: reload(sys
...: )
<module 'sys' (built-in)>

In [17]: sys.setdefaultencoding('utf-8')

In [18]: bs = BeautifulSoup(s,"html.parser")

In [19]: print(bs.text)

BeautifulSoup是Python的一个库，最主要的功能就是从网页爬取我们需要的数据。BeautifulSoup将html解析为对象进行处理，全部页面转变为字典或者数组，相对于正则表达式的方式，可以大大简化处理过程。
0x01 安装
建议安装BeautifulSoup 4版本利用pip进行安装:

In [20]:

免责声明！

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 BeautifulSoup 中获取标签下的文本去除HTML中的标签内容 HTML DOM-->获取文本节点 JavaScript 基于HTML5 canvas 获取文本占用的像素宽度去除文本中的HTML标签、中英文标点符号、数字及英文单词使用js去除所有的html标签，保留富文本中的纯内容 jsoup获取标签下的文本（去除子标签的） iOS开发中获取文本的宽高的方式 js 如何获取文本框中光标索引位置 js 如何获取文本框中光标索引位置