selenium 安裝與 chromedriver安裝
參考:https://www.cnblogs.com/technologylife/p/5829944.html
因為版本必須對應 :2019 Selenium Chrome版本與chromedriver兼容版本對照表
https://blog.csdn.net/yoyocat915/article/details/80580066
s1:直接使用pip安裝
下載地址:http://npm.taobao.org/mirrors/chromedriver/
參照表:
注意 :chromedriver的版本要與你使用的chrome版本對應,對應關系如下:
下面是谷歌瀏覽器與chromedriver的版本對應關系,供參考:
ChromeDriver v2.46 (2019-02-01)----------Supports Chrome v71-73
-------以下為2018年兼容版本對照表,以上為2019年兼容版本對照表------
ChromeDriver v2.45 (2018-12-10)----------Supports Chrome v70-72
ChromeDriver v2.44 (2018-11-19)----------Supports Chrome v69-71
ChromeDriver v2.43 (2018-10-16)----------Supports Chrome v69-71
ChromeDriver v2.42 (2018-09-13)----------Supports Chrome v68-70
ChromeDriver v2.41 (2018-07-27)----------Supports Chrome v67-69
ChromeDriver v2.40 (2018-06-07)----------Supports Chrome v66-68
ChromeDriver v2.39 (2018-05-30)----------Supports Chrome v66-68
ChromeDriver v2.38 (2018-04-17)----------Supports Chrome v65-67
ChromeDriver v2.37 (2018-03-16)----------Supports Chrome v64-66
ChromeDriver v2.36 (2018-03-02)----------Supports Chrome v63-65
ChromeDriver v2.35 (2018-01-10)----------Supports Chrome v62-64
ChromeDriver v2.34 (2017-12-10)----------Supports Chrome v61-63
chromedriver版本 |
支持的Chrome版本 |
v2.33 |
v60-62 |
v2.32 |
v59-61 |
v2.31 |
v58-60 |
v2.30 |
v58-60 |
v2.29 |
v56-58 |
v2.28 |
v55-57 |
v2.27 |
v54-56 |
v2.26 |
v53-55 |
v2.25 |
v53-55 |
v2.24 |
v52-54 |
v2.23 |
v51-53 |
v2.22 |
v49-52 |
v2.21 |
v46-50 |
v2.20 |
v43-48 |
v2.19 |
v43-47 |
v2.18 |
v43-46 |
v2.17 |
v42-43 |
v2.13 |
v42-45 |
v2.15 |
v40-43 |
v2.14 |
v39-42 |
v2.13 |
v38-41 |
v2.12 |
v36-40 |
v2.11 |
v36-40 |
v2.10 |
v33-36 |
v2.9 |
v31-34 |
v2.8 |
v30-33 |
v2.7 |
v30-33 |
v2.6 |
v29-32 |
v2.5 |
v29-32 |
v2.4 |
v29-32 |
下載解壓完之后添加到python/scripts目錄下,因為這個目錄是已經放在環境變量中的;當然也可以自己把解壓路徑添加到環境變量
from selenium import webdriver driver=webdriver.Chrome()
此時彈出下面:
然后
driver.get(“http://www.baidu.com”)
此時彈出:
driver.get("http://www.python.org")
彈出:
driver.page_source #獲得網頁源代碼
有時候在爬蟲的時候一直采用chrome不是很方便,因此可以采用一個無界面瀏覽器:phantomjs:
安裝phantomjs
下載地址:http://phantomjs.org/download.html
解壓:
進入bin目錄:
將phantomjs.exe目錄配置到環境變量中去:
打開電腦》》屬性》》高級系統設置》》高級》》環境變量》》path中添加環境變量(記得路徑之間加分號)
然后測試:
安裝正確,ctrl+c退出;
接下來爬取網頁:
from selenium import webdriver driver=webdriver.PhantomJS() driver.get("http://www.baidu.com")#爬取網頁 driver.page_source#獲取網頁內容
安裝lxml用來解析網頁
pip install lxml
#或者另一個方式:
前提安裝pip install wheel
安裝beautifulsoup庫:
pip install beautifulsoup4 from bs4 import BeautifulSoup
安裝pyquery:網頁解析庫(比bs4更方便)
安裝數據庫
pip install pymysql
測試:
import pymysql conn=pymysql.connect(host='localhost',user='root',password='123456',port=3306,db='mysql') cursor=conn.cursor()#建立操縱對象 cursor.execute('select * from db')
輸出:
2
cursor.fetchone()#取出里面的內容
輸出:
('localhost', 'performance_schema', 'mysql.session', 'Y', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N', 'N')
安裝pymongo
#鍵值形式存放,非關系型數據庫,不需要見表,不需要關心表的結構,動態增加鍵名,完成數據存儲
pip install pymongo#安裝
測試:
import pymongo client=pymongo.MongoClient('localhost')#mongodb的連接對象 db=client['newtestdb']#聲明一個數據庫 db['table'].insert({'name':'Bob'})#聲明表名,並插入一條數據
輸出:
ObjectId('5c94e991fb8cf862d46be74c')
db['table'].find_one({'name':'Bob'})#利用函數將數據傳送過來,查詢數據
輸出:
{'_id': ObjectId('5c94e991fb8cf862d46be74c'), 'name': 'Bob'}
安裝Redis
Redis也是key-value形式存在,分布式爬蟲,維護爬取序列的數據庫
import redis r=redis.Redis('localhost',6379)#建立數據庫對象 r.set('name','Bob')#添加鍵值
輸出:
True
>>> r.get('name')#查詢鍵值
b'Bob'
安裝flask庫
之后因為要用到web代理,進行代理的獲取,代理的存儲
pip install flask
安裝django
web服務器框架,提供了后台管理,一些模板,引擎,接口,路由
pip install django
安裝jupyter
pip install jupyter