BeautifulSoup去除html中的標簽，獲取文本

本文轉載自查看原文 2018-08-09 11:40 5118 python

In [1]: from bs4 import BeautifulSoup

In [2]: s = '''<div class="markdown_views">
...: <p>BeautifulSoup是Python的一個庫，最主要的功能就是從網頁
...: 爬取我們需要的數據。BeautifulSoup將html解析為對象進行處理，全部頁面轉變
...: 為字典或者數組，相對於正則表達式的方式，可以大大簡化處理過程。</p>
...:
...: <h3 id="0x01-安裝"><a name="t0"></a>0x01 安裝</h3>
...:
...: <p>建議安裝BeautifulSoup 4版本利用pip進行安裝:</p>'''

In [4]: bs = BeautifulSoup(s,"html.parser")

In [5]: print(bs.text)
---------------------------------------------------------------------------
UnicodeEncodeError Traceback (most recent call last)
<ipython-input-5-0ea5f8e54d3a> in <module>()
----> 1 print(bs.text)

UnicodeEncodeError: 'ascii' codec can't encode character u'\u662f' in position 14: ordinal not in range(128)

In [15]: import sys

In [16]: reload(sys
...: )
<module 'sys' (built-in)>

In [17]: sys.setdefaultencoding('utf-8')

In [18]: bs = BeautifulSoup(s,"html.parser")

In [19]: print(bs.text)

BeautifulSoup是Python的一個庫，最主要的功能就是從網頁爬取我們需要的數據。BeautifulSoup將html解析為對象進行處理，全部頁面轉變為字典或者數組，相對於正則表達式的方式，可以大大簡化處理過程。
0x01 安裝
建議安裝BeautifulSoup 4版本利用pip進行安裝:

In [20]:

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 java 去除HTML中的所有標簽，獲取TEXT文本 BeautifulSoup 中獲取標簽下的文本富文本怎么只獲取文字內容去除html標簽利用BeautifulSoup去除HTML指定標簽和去除注釋 Python中BeautifulSoup中對HTML標簽的提取去除HTML中的標簽內容 vue中獲取文本框中的純文本內容 selenium 獲取文本 HTML DOM-->獲取文本節點 JavaScript 基於HTML5 canvas 獲取文本占用的像素寬度