(一 )安裝爬蟲庫


selenium 安裝與 chromedriver安裝

參考:https://www.cnblogs.com/technologylife/p/5829944.html

因為版本必須對應 :2019 Selenium Chrome版本與chromedriver兼容版本對照表

https://blog.csdn.net/yoyocat915/article/details/80580066

 s1:直接使用pip安裝

pip install selenium

s2:用 Chrome 瀏覽器來測試

from selenium import webdriver

browser = webdriver.Chrome()

這個首次可能會報錯,找不到chromedriver.exe.此時就需要去下載,下載的時候,要根據自己的chrome的版本去下載對應的版本的chromedriver.exe。

下載地址:http://npm.taobao.org/mirrors/chromedriver/

參照表:

注意 :chromedriver的版本要與你使用的chrome版本對應,對應關系如下:

下面是谷歌瀏覽器與chromedriver的版本對應關系,供參考:

ChromeDriver v2.46 (2019-02-01)----------Supports Chrome v71-73

 

-------以下為2018年兼容版本對照表,以上為2019年兼容版本對照表------

 

ChromeDriver v2.45 (2018-12-10)----------Supports Chrome v70-72

ChromeDriver v2.44 (2018-11-19)----------Supports Chrome v69-71

ChromeDriver v2.43 (2018-10-16)----------Supports Chrome v69-71

ChromeDriver v2.42 (2018-09-13)----------Supports Chrome v68-70

ChromeDriver v2.41 (2018-07-27)----------Supports Chrome v67-69

ChromeDriver v2.40 (2018-06-07)----------Supports Chrome v66-68

ChromeDriver v2.39 (2018-05-30)----------Supports Chrome v66-68

ChromeDriver v2.38 (2018-04-17)----------Supports Chrome v65-67

ChromeDriver v2.37 (2018-03-16)----------Supports Chrome v64-66

ChromeDriver v2.36 (2018-03-02)----------Supports Chrome v63-65

ChromeDriver v2.35 (2018-01-10)----------Supports Chrome v62-64

ChromeDriver v2.34 (2017-12-10)----------Supports Chrome v61-63

chromedriver版本

支持的Chrome版本

v2.33

v60-62

v2.32

v59-61

v2.31

v58-60

v2.30

v58-60

v2.29

v56-58

v2.28

v55-57

v2.27

v54-56

v2.26

v53-55

v2.25

v53-55

v2.24

v52-54

v2.23

v51-53

v2.22

v49-52

v2.21

v46-50

v2.20

v43-48

v2.19

v43-47

v2.18

v43-46

v2.17

v42-43

v2.13

v42-45

v2.15

v40-43

v2.14

v39-42

v2.13

v38-41

v2.12

v36-40

v2.11

v36-40

v2.10

v33-36

v2.9

v31-34

v2.8

v30-33

v2.7

v30-33

v2.6

v29-32

v2.5

v29-32

v2.4

v29-32

下載解壓完之后添加到python/scripts目錄下,因為這個目錄是已經放在環境變量中的;當然也可以自己把解壓路徑添加到環境變量

from selenium import webdriver

driver=webdriver.Chrome()

此時彈出下面:

然后

driver.get(“http://www.baidu.com”)

此時彈出:

driver.get("http://www.python.org")

彈出:

driver.page_source   #獲得網頁源代碼

有時候在爬蟲的時候一直采用chrome不是很方便,因此可以采用一個無界面瀏覽器:phantomjs:

安裝phantomjs

下載地址:http://phantomjs.org/download.html

解壓:

進入bin目錄:

將phantomjs.exe目錄配置到環境變量中去:

打開電腦》》屬性》》高級系統設置》》高級》》環境變量》》path中添加環境變量(記得路徑之間加分號)

然后測試:

安裝正確,ctrl+c退出;

接下來爬取網頁:

from selenium import webdriver
driver=webdriver.PhantomJS()

driver.get("http://www.baidu.com")#爬取網頁

driver.page_source#獲取網頁內容

安裝lxml用來解析網頁

pip install lxml
#或者另一個方式:
前提安裝pip install wheel

安裝beautifulsoup庫:

pip install beautifulsoup4
from bs4 import BeautifulSoup

安裝pyquery:網頁解析庫(比bs4更方便)

安裝數據庫

pip install pymysql

測試:

import pymysql
conn=pymysql.connect(host='localhost',user='root',password='123456',port=3306,db='mysql')
cursor=conn.cursor()#建立操縱對象
cursor.execute('select * from db')

輸出:

2

cursor.fetchone()#取出里面的內容

輸出:

('localhost', 'performance_schema', 'mysql.session', 'Y', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N')

安裝pymongo

#鍵值形式存放,非關系型數據庫,不需要見表,不需要關心表的結構,動態增加鍵名,完成數據存儲

pip install pymongo#安裝

測試:

import pymongo
client=pymongo.MongoClient('localhost')#mongodb的連接對象
db=client['newtestdb']#聲明一個數據庫
db['table'].insert({'name':'Bob'})#聲明表名,並插入一條數據

輸出:

ObjectId('5c94e991fb8cf862d46be74c')

db['table'].find_one({'name':'Bob'})#利用函數將數據傳送過來,查詢數據

輸出:

{'_id': ObjectId('5c94e991fb8cf862d46be74c'), 'name': 'Bob'}

 安裝Redis

Redis也是key-value形式存在,分布式爬蟲,維護爬取序列的數據庫

import redis
r=redis.Redis('localhost',6379)#建立數據庫對象
r.set('name','Bob')#添加鍵值

輸出:

True

>>> r.get('name')#查詢鍵值

b'Bob'

 安裝flask庫

之后因為要用到web代理,進行代理的獲取,代理的存儲

pip install flask

安裝django

web服務器框架,提供了后台管理,一些模板,引擎,接口,路由

pip install django

安裝jupyter

pip install jupyter

 


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM