一、日志模塊
兩種配置方式:1、config函數 2、logger
#1、config函數 不能輸出到屏幕
#2、logger對象 (獲取別人的信息,需要兩個數據流:文件流和屏幕流需要將數據從兩個數據流中接收)
1、函數式簡單配置
import logging logging.debug('debug message') logging.info('info message') logging.warning('warning message') logging.error('error message') logging.critical('critical message')
默認情況下Python的logging模塊將日志打印到了標准輸出中,且只顯示了大於等於WARNING級別的日志,這說明默認的日志級別設置為WARNING(日志級別等級CRITICAL > ERROR > WARNING > INFO > DEBUG),默認的日志格式為日志級別:Logger名稱:用戶輸出消息。
靈活配置日志級別,日志格式,輸出位置:
2)config函數樣式
import logging #config logging.basicConfig(level=logging.DEBUG, #設置文件等級 format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s', datefmt='%a, %d %b %Y %H:%M:%S', filename='/tmp/test.log', filemode='w') logging.debug('debug message') logging.info('info message') logging.warning('warning message') logging.error('error message') logging.critical('critical message')
配置參數:
logging.basicConfig()函數中可通過具體參數來更改logging模塊默認行為,可用參數有: filename:用指定的文件名創建FiledHandler,這樣日志會被存儲在指定的文件中。 filemode:文件打開方式,在指定了filename時使用這個參數,默認值為“a”還可指定為“w”。 format:指定handler使用的日志顯示格式。 datefmt:指定日期時間格式。 level:設置rootlogger(后邊會講解具體概念)的日志級別 stream:用指定的stream創建StreamHandler。可以指定輸出到sys.stderr,sys.stdout或者文件(f=open(‘test.log’,’w’)),默認為sys.stderr。若同時列出了filename和stream兩個參數,則stream參數會被忽略。 format參數中可能用到的格式化串: %(name)s Logger的名字 %(levelno)s 數字形式的日志級別 %(levelname)s 文本形式的日志級別 %(pathname)s 調用日志輸出函數的模塊的完整路徑名,可能沒有 %(filename)s 調用日志輸出函數的模塊的文件名 %(module)s 調用日志輸出函數的模塊名 %(funcName)s 調用日志輸出函數的函數名 %(lineno)d 調用日志輸出函數的語句所在的代碼行 %(created)f 當前時間,用UNIX標准的表示時間的浮 點數表示 %(relativeCreated)d 輸出日志信息時的,自Logger創建以 來的毫秒數 %(asctime)s 字符串形式的當前時間。默認格式是 “2003-07-08 16:49:45,896”。逗號后面的是毫秒 %(thread)d 線程ID。可能沒有 %(threadName)s 線程名。可能沒有 %(process)d 進程ID。可能沒有 %(message)s用戶輸出的消息
3)logger對象配置方式:
logging庫提供了多個組件:Logger、Handler、Filter、Formatter。Logger對象提供應用程序可直接使用的接口,Handler發送日志到適當的目的地,Filter提供了過濾日志信息的方法,Formatter指定日志顯示格式。另外,可以通過:logger.setLevel(logging.Debug)設置級別。
import logging #logger對象 logger = logging.getLogger() #創建一個logger對象 logger.setLevel(logging.DEBUG) #設置輸出等級 fm = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s') #設置文件編寫格式 fh = logging.FileHandler('b.log') #創建一個hander 負責產生文件數據 sh = logging.StreamHandler() #創建一個hander 負責產生屏幕數據 fh.setFormatter(fm) #設置格式 sh.setFormatter(fm) #設置格式 logger.addHandler(fh) #接收文件的數據流 logger.addHandler(sh) ##接收屏幕的數據流 logger.debug('logger debug message') logger.info('logger info message') logger.warning('logger warning message') logger.error('logger error message') logger.critical('日志信息')
二、序列化模塊 json (可支持跨語言之間的轉換!)
之前我們學習過用eval內置方法可以將一個字符串轉成python對象,不過,eval方法是有局限性的,對於普通的數據類型,json.loads和eval都能用,但遇到特殊類型的時候,eval就不管用了,所以eval的重點還是通常用來執行一個字符串表達式,並返回表達式的值。
1、什么是序列化
我們把對象(變量)從內存中變成可存儲或傳輸的過程稱之為序列化,序列化之后,就可以把序列化后的內容寫入磁盤,或者通過網絡傳輸到別的機器上。反過來,把變量內容從序列化的對象重新讀到內存里稱之為反序列化。
1)json
如果我們要在不同的編程語言之間傳遞對象,就必須把對象序列化為標准格式,比如XML,但更好的方法是序列化為JSON,因為JSON表示出來就是一個字符串,可以被所有語言讀取,也可以方便地存儲到磁盤或者通過網絡傳輸。JSON不僅是標准格式,並且比XML更快,而且可以直接在Web頁面中讀取,非常方便。JSON表示的對象就是標准的JavaScript語言的對象一個子集,JSON和Python內置的數據類型對應如下:
序列化:json.dumps()
反序列化:json.loads() #只要是json字符串,就能反序列化回去
import json d = {'name':'egon'} s = json.dumps(d) #將字典d轉為json字符串 序列化過程 print(type(s)) print(s) #注意轉換的引號,由單引號轉成了雙引號。形成json字符串 data = json.loads(s) #反序列過程 print(data['name']) #執行結果: <class 'str'> {"name": "egon"} egon
#dump方式 用於文件操作,省掉了write
# # -------------- dump方式 用於文件操作中,先將數據序列化然后寫入文件中! import json d={'name':"egon"} f=open("new2",'w') json.dump(d,f)#---------1 將字典d轉成json字符串 2 將json字符串寫入f里(!注意參數順序!) f.close() f=open("new2") print(f.read()) f.close()
2)pickle 僅在python中進行序列化轉換,可對任意類型的數據進行序列化轉換。
操作與json一樣,但是轉換的數據為bytes格式,不可查看
#----------------------------------pickle-------------------- import pickle import datetime t=datetime.datetime.now() d={"data":t} print(d) s=pickle.dumps(d) #序列化 print(s,type(s)) #查看序列化的內容,數據類型 s1 = pickle.loads(s) #反序列化 print(s1,type(s1)) #查看序列化的內容,數據類型
三、正則表達式 re 模塊
就其本質而言,正則表達式(或 RE)是一種小型的、高度專業化的編程語言,(在Python中)它內嵌在Python中,並通過 re 模塊實現。正則表達式模式被編譯成一系列的字節碼,然后由用 C 編寫的匹配引擎執行。
正則就是給字符串操作得。
爬蟲里會大量用到字符串。要處理一定是對字符串處理。
正則表達式是模糊匹配,這就是正則表達式得真正關鍵所在。
匹配是一個一個對應的關系,匹配上就放進自己的列表中。
1.正則表達式(元字符):只對字符串進行操作
1)操作 一個字符
通配符 點 . 可以替換除了換行符(\n)所有字符, 通配符(一個字符)沒有跳過之說。
2)操作 重復字符(操作元字符前的一個字符)
* 代表:0到無窮次
+ 代表:1到無窮次
? 代表:0到1次
{} {r,m}代表:有r-m次
\d 代表:0-9 的 數字
[] 字符集 中括號內的字符是或的關系,只要匹配到其中一個就可以。
在字符集中還要注意:*,+ . 等元字符都代表的是普通符號, 而 - ^ \
[^2] 字符集內的 ^ 是取反的意思。及除字符集內的條件其他的都符合,[\d] 表示的還是數字!
3)有特殊意義的字符:
- 代表:什么到什么 的意思 例如:[1-9]
^ 開始匹配 從字符串開始位置匹配
$ 結尾匹配 從字符串結尾位置匹配
() 分組 優先匹配分組的內容
(?:內容) 表示取消分組的優先級
| 管道符 表示 或的意思
\ 轉義符 將有意義的符號轉成無意義的,將無意義的轉換成有意義的
1、后面加上一個元字符使其變成普通符號 比如:\. \*
2、將一些普通符號變成特殊符號 比如:\d \w
2、re方法
re.findall(pattern , string) 找到所有的匹配元素,返回列表
re.finditer() #將拿到的東西整成一個可迭代的對象
re.search; 只匹配第一個結果,匹配到就不再向下匹配,返回一個內存地址,通過.group()的方式獲取匹配的字符串
re.match:只在字符串開始的位置匹配
re.split(規則,字符串) 分割 以前邊的規則表達式為條件分隔符,對字符串進行分割!可在后邊限制分割次數
re.sub() 替換
ret4 = re.sub(規則,替換內容,原字符串,次數) 返回一個字符串
re.subn() 替換 返回一個元組(內容,替換次數)
re.compile(規則) 編譯規則
c = compile('\d+') 可操作多個字符串
ret5 = c.findall('hello32world')
print(ret5)
貪婪匹配與非貪婪匹配!
命名分組:
整體代碼如下:
# 正則:對字符串的模糊匹配 # key:元字符(有特殊功能的字符) import re #元字符 # . :匹配除\n以外的任意符號 print(re.findall("a.+d","abcd")) # ^:從字符串開始位置匹配 # $:從字符串結尾匹配 print(re.findall("^yuan","yuandashj342jhg234")) print(re.findall("yuan$","yuandashj342jhg234yuan")) # * + ? {} :重復 print(re.findall("[0-9]{4}","af5324jh523hgj34gkhg53453")) #貪婪匹配 print(re.findall("\d+","af5324jh523hgj34gkhg53453")) #非貪婪匹配 print(re.findall("\d+?","af5324jh523hgj34gkhg53453")) print(re.findall("(abc\d)*?","af5324jh523hgj34gkhg53453")) # 字符集 []: 起一個或者的意思 print(re.findall("a[bc]d","hasdabdjhacd")) #注意: * ,+.等元字符都是普通符號, - ^ \ print(re.findall("[0-9]+","dashj342jhg234")) print(re.findall("[a-z]+","dashj342jhg234")) print(re.findall("[^\d]+","d2a2fhj87fgj")) # ():分組 print(re.findall("(ad)+","addd")) print(re.findall("(ad)+yuan","adddyuangfsdui")) print(re.findall("(?:ad)+yuan","adadyuangfsdui")) print(re.findall("(?:\d)+yuan","adad678423yuang4234fsdui")) #命名分組 ret8=re.search(r"(?P<A>\w+)\\aticles\\(?P<id>\d{4})",r"yuan\aticles\1234") ret8=re.search(r"a\\nb",r"a\nb") print(ret8) print(ret8.group("id")) print(ret8.group("A")) # # | :或 print(re.findall("www\.(?:oldboy|baidu)\.com","www.oldboy.com")) # \:轉義 # 1 后面加一個元字符使其變成普通符號 \. \* # 2 將一些普通符號變成特殊符號 比如 \d \w print(re.findall("\d+\.?\d*\*\d+\.?\d*","-2*6+7*45+1.456*3-8/4")) print(re.findall("\w","$da@s4 234")) print(re.findall("a\sb","a badf")) print(re.findall("\\bI","hello I am LIA")) print(re.findall(r"\dI","hello 654I am LIA")) print(re.findall(r"c\\l","abc\l")) # re的方法 # re.findall() # re.findall(pattern, string) # 找到所有的匹配元素,返回列表 #獲得迭代器對象 s=re.finditer("\d+","ad324das32") print(s) print(next(s).group()) print(next(s).group()) # "(3+7*2+27+7+(4/2+1))+3" # search;只匹配第一個結果 ret=re.search("\d+","djksf34asd3") print(ret.group()) # #match:只在字符串開始的位置匹配 ret=re.match("\d+","423djksf34asd3") print(ret.group()) #split 分割 s2=re.split("\d+","fhd3245jskf54skf453sd",2) print(s2) ret3=re.split("l","hello yuan") print(ret3) # #sub: 替換 ret4=re.sub("\d+","A","hello 234jkhh23",1) print(ret4) ret4=re.subn("\d+","A","hello 234jkhh23") print(ret4) #compile: 編譯方法 c=re.compile("\d+") ret5=c.findall("hello32world53") #== re.findall("\d+","hello32world53") print(ret5)