python爬取各類文檔方法歸類匯總

HTML文檔是互聯網上的主要文檔類型，但還存在如TXT、WORD、Excel、PDF、csv等多種類型的文檔。網絡爬蟲不僅需要能夠抓取HTML中的敏感信息，也需要有抓取其他類型文檔的能力。下面簡要記錄一些個人已知的基於python3的抓取方法，以備查閱。

1.抓取TXT文檔

在python3下，常用方法是使用urllib.request.urlopen方法直接獲取。之后利用正則表達式等方式進行敏感詞檢索。

 
                  ### Reading TXT doc ### 
                 
                  from 
                  urllib.request  
                  import 
                  urlopen 
                 
                  from 
                  urllib.error  
                  import 
                  URLError,HTTPError 
                 
                  import 
                  re 
                 
                  try 
                  : 
                 
                  textPage  
                  = 
                  urlopen( 
                  "http://www.pythonscraping.com/pages/warandpeace/chapter1.txt" 
                  ) 
                 
                  except 
                  (URLError,HTTPError) as e: 
                 
                  print 
                  ( 
                  "Errors:\n" 
                  ) 
                 
                  print 
                  (e) 
                 
                  #print(textPage.read()) 
                 
                  text  
                  = 
                  str 
                  (textPage.read()) 
                 
                  #下面方法用正則匹配含1805的句子 
                 
                  pattern  
                  = 
                  re. 
                  compile 
                  ( 
                  "\..*1805(\w|,|\s|-)*(\.)" 
                  ) 
                  #不完美，簡單示例 
                 
                  match  
                  = 
                  pattern.search(text) 
                 
                  if 
                  match  
                  is 
                  not 
                  None 
                  : 
                 
                  print 
                  (match.group()) 
                 
                  #下面方法不用正則。先用.將句集分片，之后就可遍歷了。 
                 
                  ss  
                  = 
                  text.split( 
                  '.' 
                  ) 
                 
                  key_words  
                  = 
                  "1805" 
                 
                  words_list  
                  = 
                  [x.lower()  
                  for 
                  x  
                  in 
                  key_words.split()] 
                 
                  for 
                  item  
                  in 
                  ss: 
                 
                  if 
                  all 
                  ([word  
                  in 
                  item.lower()  
                  and 
                  True 
                  or 
                  False 
                  for 
                  word  
                  in 
                  words_list]): 
                 
                  print 
                  (item)

上面的方法是已知目標網頁為txt文本時的抓取。事實上，在自動抓取網頁時，必須考慮目標網頁是否為純文本，用何種編碼等問題。

如果只是編碼問題，可以簡單使用print(textPage.read(),'utf-8')等python字符處理方法來解決，如果抓取的是某個HTML，最好先分析，例如：

 
                  from 
                  urllib.request  
                  import 
                  urlopen 
                 
 
                  from 
                  urllib.error  
                  import 
                  URLError,HTTPError 
                 
 
                  from 
                  bs4  
                  import 
                  BeautifulSoup 
                 
 
                  try 
                  : 
                 
 
                    
                  html  
                  = 
                  urlopen( 
                  "https://en.wikipedia.org/wiki/Python_(programming_language)" 
                  ) 
                 
 
                  except 
                  (URLError,HTTPError) as e: 
                 
 
                    
                  print 
                  (e) 
                 
 
                  try 
                  : 
                 
 
                    
                  bsObj  
                  = 
                  BeautifulSoup(html, 
                  "html.parser" 
                  ) 
                 
 
                    
                  content  
                  = 
                  bsObj.find( 
                  "div" 
                  ,{ 
                  "id" 
                  : 
                  "mw-content-text" 
                  }).get_text() 
                 
 
                  except 
                  AttributeError as e: 
                 
 
                    
                  print 
                  (e) 
                 

                     
                 
 
                  meta  
                  = 
                  bsObj.find( 
                  "meta" 
                  ) 
                 
 
                  #print(bsObj) 
                 
 
                  if 
                  meta.attrs[ 
                  'charset' 
                  ]  
                  = 
                  = 
                  'UTF-8' 
                  : 
                 
 
                    
                  content  
                  = 
                  bytes(content, 
                  "UTF-8" 
                  ) 
                 
 
                    
                  print 
                  ( 
                  "-----------------UTF-8--------------" 
                  ) 
                 
 
                    
                  print 
                  (content.decode( 
                  "UTF-8" 
                  )) 
                 
 
                  if 
                  meta.attrs[ 
                  'charset' 
                  ]  
                  = 
                  = 
                  'iso-8859-1' 
                  : 
                 
 
                    
                  content  
                  = 
                  bytes(content, 
                  "iso-8859-1" 
                  ) 
                 
 
                    
                  print 
                  ( 
                  "--------------iso-8859-1------------" 
                  ) 
                 
 
                    
                  print 
                  (content.decode( 
                  "iso-8859-1" 
                  )) 
                 

2.抓取CSV文檔

CSV文件是一種常見的數據存檔文件，與TXT文檔基本類似，但在內容組織上有一定格式，文件的首行為標題列，之后的文件中的每一行表示一個數據記錄。這就像一個二維數據表或excel表格一樣。 python3中包含一個csv解析庫，可用於讀寫csv文件，但其讀取目標一般要求是在本地，要讀取遠程網絡上的csv文件需要用urllib.request.urlopen先獲取。例如：

 
                  #csv遠程獲取，內存加載讀取 
                 
                  from 
                  urllib.request  
                  import 
                  urlopen 
                 
                  import 
                  csv 
                 
                  from 
                  io  
                  import 
                  StringIO 
                  #在內存中讀寫str，如果要操作二進制數據，就需要使用BytesIO 
                 
                  try 
                  : 
                 
                  data  
                  = 
                  urlopen( 
                  "http://pythonscraping.com/files/MontyPythonAlbums.csv" 
                  ).read().decode( 
                  "ascii" 
                  , 
                  "ignore" 
                  ) 
                 
                  except 
                  (URLError,HTTPError) as e: 
                 
                  print 
                  ( 
                  "Errors:\n" 
                  ) 
                 
                  print 
                  (e) 
                 
                  dataFile  
                  = 
                  StringIO(data) 
                 
                  csvReader  
                  = 
                  csv.reader(dataFile) 
                 
                  count  
                  = 
                  0 
                 
                  for 
                  row  
                  in 
                  csvReader: 
                 
                  if 
                  count <  
                  10 
                  : 
                 
                  print 
                  (row) 
                 
                  else 
                  : 
                 
                  print 
                  ( 
                  "...\n..." 
                  ) 
                 
                  break 
                 
                  count  
                  + 
                  = 
                  1 
                 
                  #將數據寫入本地csv文件 
                 
                  with  
                  open 
                  ( 
                  "./localtmp.csv" 
                  , 
                  "wt" 
                  ,newline 
                  = 
                  ' 
                  ',encoding=' 
                  utf 
                  - 
                  8 
                  ') as localcsvfile: 
                 
                  writer  
                  = 
                  csv.writer(localcsvfile) 
                 
                  count  
                  = 
                  0 
                 
                  try 
                  : 
                 
                  for 
                  row  
                  in 
                  csvReader: 
                 
                  if 
                  count <  
                  10 
                  : 
                 
                  writer.writerow(row) 
                 
                  else 
                  : 
                 
                  break 
                 
                  count  
                  + 
                  = 
                  1 
                 
                  finally 
                  : 
                 
                  localcsvfile.close()

csv文檔的標題行（首行）需要特殊處理，csv.DictReader可以很好的解決這個問題。DictReader將讀取的行轉換為python字典對象，而不是列表。標題行的各列名即為字典的鍵名。

 
                  #csv.DictReader讀取csv文件，可以有效處理標題行等問題 
                 
                  from 
                  urllib.request  
                  import 
                  urlopen 
                 
                  import 
                  csv 
                 
                  from 
                  io  
                  import 
                  StringIO 
                  #在內存中讀寫str，如果要操作二進制數據，就需要使用BytesIO 
                 
                  try 
                  : 
                 
                  data  
                  = 
                  urlopen( 
                  "http://pythonscraping.com/files/MontyPythonAlbums.csv" 
                  ).read().decode( 
                  "ascii" 
                  , 
                  "ignore" 
                  ) 
                 
                  except 
                  (URLError,HTTPError) as e: 
                 
                  print 
                  ( 
                  "Errors:\n" 
                  ) 
                 
                  print 
                  (e) 
                 
                  dataFile  
                  = 
                  StringIO(data) 
                 
                  csvReader  
                  = 
                  csv.reader(dataFile) 
                 
                  dictReader  
                  = 
                  csv.DictReader(dataFile) 
                 
                  print 
                  (dictReader.fieldnames) 
                 
                  count  
                  = 
                  0 
                 
                  for 
                  row  
                  in 
                  dictReader: 
                 
                  if 
                  count <  
                  10 
                  : 
                 
                  print 
                  (row) 
                 
                  else 
                  : 
                 
                  print 
                  ( 
                  "...\n..." 
                  ) 
                 
                  break 
                 
                  count  
                  + 
                  = 
                  1

3.抓取PDF文檔

pdf文檔的遠程抓取與操作，可借助比較流行的pdfminer3k庫來完成。

 
                  #抓取並操作pdf 
                 
                  #pdf READ operation 
                 
                  from 
                  urllib.request  
                  import 
                  urlopen 
                 
                  from 
                  pdfminer.pdfinterp  
                  import 
                  PDFResourceManager,process_pdf 
                 
                  from 
                  pdfminer.converter  
                  import 
                  TextConverter 
                 
                  from 
                  pdfminer.layout  
                  import 
                  LAParams 
                 
                  from 
                  io  
                  import 
                  StringIO, 
                  open 
                 
                  def 
                  readPDF(filename): 
                 
                  resmgr  
                  = 
                  PDFResourceManager() 
                  #STEP 1 
                 
                  retstr  
                  = 
                  StringIO() 
                  #STEP 2 
                 
                  laparams  
                  = 
                  LAParams() 
                  #STEP 3 
                 
                  device  
                  = 
                  TextConverter(resmgr,retstr,laparams 
                  = 
                  laparams) 
                  #STEP 4 
                 
                  process_pdf(resmgr,device,filename) 
                  #STEP 5 
                 
                  device.close() 
                  #STEP 6 
                 
                  content  
                  = 
                  retstr.getvalue() 
                 
                  retstr.close() 
                 
                  return 
                  content 
                 
                  try 
                  : 
                 
                  pdffile  
                  = 
                  urlopen( 
                  "http://www.fit.vutbr.cz/research/groups/speech/servite/2010/rnnlm_mikolov.pdf" 
                  ) 
                 
                  except 
                  (URLError,HTTPError) as e: 
                 
                  print 
                  ( 
                  "Errors:\n" 
                  ) 
                 
                  print 
                  (e) 
                 
                  outputString  
                  = 
                  readPDF(pdffile) 
                  #也可以讀取由pdffile=open("../../readme.pdf")語句打開的本地文件。 
                 
                  print 
                  (outputString) 
                 
                  pdffile.close()

4.抓取WORD

老版word使用了二進制格式，后綴名為.doc，word2007后出現了與OPEN OFFICE類似的類XML格式文檔，后綴名為.docx。python對word文檔的支持不夠，似乎沒有完美解決方案。為讀取docx內容，可以使用以下方法：
（1）利用urlopen抓取遠程word docx文件；
（2）將其轉換為內存字節流；
（3）解壓縮（docx是壓縮后文件）；
（4）將解壓后文件作為xml讀取
（5）尋找xml中的標簽（正文內容）並處理

 
                  #讀取word docx文檔內容 
                 
 
                  from 
                  zipfile  
                  import 
                  ZipFile 
                 
 
                  from 
                  urllib.request  
                  import 
                  urlopen 
                 
 
                  from 
                  io  
                  import 
                  BytesIO 
                 
 
                  from 
                  bs4  
                  import 
                  BeautifulSoup 
                 

                     
                 
 
                  wordFile  
                  = 
                  urlopen( 
                  "http://pythonscraping.com/pages/AWordDocument.docx" 
                  ).read() 
                 
 
                  wordFile  
                  = 
                  BytesIO(wordFile) 
                 
 
                  document  
                  = 
                  ZipFile(wordFile) 
                  # 
                 
 
                  xml_content  
                  = 
                  document.read( 
                  "word/document.xml" 
                  ) 
                 
 
                  #print(xml_content.decode("utf-8")) 
                 

                     
                 
 
                  wordObj  
                  = 
                  BeautifulSoup(xml_content.decode( 
                  "utf-8" 
                  ), 
                  "lxml" 
                  ) 
                 
 
                  textStrings  
                  = 
                  wordObj.findAll( 
                  "w:t" 
                  ) 
                 
 
                  for 
                  textElem  
                  in 
                  textStrings: 
                 
 
                    
                  print 
                  (textElem.text) 
                 

5.抓取EXCEL

6.抓取HTML源文檔

7.抓取HTML表單數據

8.抓取Javascript數據

更多內容請參考專題《python爬取功能匯總》進行學習。

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

python爬取各類文檔方法歸類匯總

免責聲明！