Python3獲取大量電影信息:調用API


實驗室這段時間要采集電影的信息,給出了一個很大的數據集,數據集包含了4000多個電影名,需要我寫一個爬蟲來爬取電影名對應的電影信息。

 

其實在實際運作中,根本就不需要爬蟲,只需要一點簡單的Python基礎就可以了。

 

前置需求:

Python3語法基礎

HTTP網絡基礎

 

===================================

第一步,確定API的提供方。IMDb是最大的電影數據庫,與其相對的,有一個OMDb的網站提供了API供使用。這家網站的API非常友好,易於使用。

http://www.omdbapi.com/

第二步,確定網址的格式。

第三步,了解基本的Requests庫的使用方法。

http://cn.python-requests.org/zh_CN/latest/

 

為什么我要使用Requests,不使用urllib.request呢?

因為Python的這個庫容易出各種各樣的奇葩問題,我已經受夠了……

 

第四步,編寫Python代碼。

我想做的是,逐行讀取文件,然后用該行的電影名去獲取電影信息。因為源文件較大,readlines()不能完全讀取所有電影名,所以我們逐行讀取。

 1 import requests
 2 
 3 for line in open("movies.txt"):
 4     s=line.split('%20\n')
 5     urll='http://www.omdbapi.com/?t='+s[0]
 7     result=requests.get(urll)
 8     if result:
 9         json=result.text
10         print(json)
11         p=open('result0.json','a')
12         p.write(json)
13         p.write('\n')
14         p.close()

我預先把電影名文件全部格式化了一遍,將所有的空格替換成了"%20",便於使用API(否則會報錯)。這個功能可以用Visual Studio Code完成。

 

注意,編碼的時候選擇GBK編碼,不然會出現下面錯誤:

1 UnicodeDecodeError: 'gbk' codec can't decode byte 0xff in position 0: illegal multibyte sequence

 

第五步,做優化和異常處理。

主要做三件事,第一件事,控制API速度,防止被服務器屏蔽;

第二件事,獲取API key(甚至使用多個key)

第三件事:異常處理。

 1 import requests 3 
 4 key=[‘’]
 5 
 6 for line in open("movies.txt"):
 7     try:
 8         #……
 9     except TimeoutError:
10         continue
11     except UnicodeEncodeError:
12         continue
13     except ConnectionError:
14         continue

 

下面貼出完整代碼:

 1 # -*- coding: utf-8 -*-
 2 
 3 import requests
 4 import time
 5 
 6 key=['xxxxx','yyyyy',zzzzz','aaaaa','bbbbb']
 7 i=0
 8 
 9 for line in open("movies.txt"):
10     try:
11         i=(i+1)%5
12         s=line.split('%20\n')
13         urll='http://www.omdbapi.com/?t='+s[0]+'&apikey='+key[i]
14         result=requests.get(urll)
15         if result:
16             json=result.text
17             print(json)
18             p=open('result0.json','a')
19             p.write(json)
20             p.write('\n')
21             p.close()
22             time.sleep(1)
23     except TimeoutError:
24         continue
25     except UnicodeEncodeError:
26         continue
27     except ConnectionError:
28         continue

接下來喝杯茶,看看自己的程序跑得怎么樣吧!

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM