Py修行路 python基礎（二十一）logging日志模塊 json序列化正則表達式（re）

本文轉載自查看原文 2017-05-07 18:15 1979 python基礎

一、日志模塊

兩種配置方式：1、config函數 2、logger
　　#1、config函數不能輸出到屏幕

　　#2、logger對象（獲取別人的信息，需要兩個數據流：文件流和屏幕流需要將數據從兩個數據流中接收）

1、函數式簡單配置

import logging  
logging.debug('debug message')  
logging.info('info message')  
logging.warning('warning message')  
logging.error('error message')  
logging.critical('critical message')

　　默認情況下Python的logging模塊將日志打印到了標准輸出中，且只顯示了大於等於WARNING級別的日志，這說明默認的日志級別設置為WARNING（日志級別等級CRITICAL > ERROR > WARNING > INFO > DEBUG），默認的日志格式為日志級別：Logger名稱：用戶輸出消息。

　　靈活配置日志級別，日志格式，輸出位置:

　2）config函數樣式

import logging

#config
logging.basicConfig(level=logging.DEBUG,  #設置文件等級
                    format='%(asctime)s %(filename)s[line:%(lineno)d] %(levelname)s %(message)s',
                    datefmt='%a, %d %b %Y %H:%M:%S',
                    filename='/tmp/test.log',
                    filemode='w')

logging.debug('debug message')
logging.info('info message')
logging.warning('warning message')
logging.error('error message')
logging.critical('critical message')

　配置參數：

logging.basicConfig()函數中可通過具體參數來更改logging模塊默認行為，可用參數有：

filename：用指定的文件名創建FiledHandler，這樣日志會被存儲在指定的文件中。
filemode：文件打開方式，在指定了filename時使用這個參數，默認值為“a”還可指定為“w”。
format：指定handler使用的日志顯示格式。
datefmt：指定日期時間格式。
level：設置rootlogger（后邊會講解具體概念）的日志級別
stream：用指定的stream創建StreamHandler。可以指定輸出到sys.stderr,sys.stdout或者文件(f=open(‘test.log’,’w’))，默認為sys.stderr。若同時列出了filename和stream兩個參數，則stream參數會被忽略。

format參數中可能用到的格式化串：
%(name)s Logger的名字
%(levelno)s 數字形式的日志級別
%(levelname)s 文本形式的日志級別
%(pathname)s 調用日志輸出函數的模塊的完整路徑名，可能沒有
%(filename)s 調用日志輸出函數的模塊的文件名
%(module)s 調用日志輸出函數的模塊名
%(funcName)s 調用日志輸出函數的函數名
%(lineno)d 調用日志輸出函數的語句所在的代碼行
%(created)f 當前時間，用UNIX標准的表示時間的浮 點數表示
%(relativeCreated)d 輸出日志信息時的，自Logger創建以 來的毫秒數
%(asctime)s 字符串形式的當前時間。默認格式是 “2003-07-08 16:49:45,896”。逗號后面的是毫秒
%(thread)d 線程ID。可能沒有
%(threadName)s 線程名。可能沒有
%(process)d 進程ID。可能沒有
%(message)s用戶輸出的消息

3）logger對象配置方式：

　　logging庫提供了多個組件：Logger、Handler、Filter、Formatter。Logger對象提供應用程序可直接使用的接口，Handler發送日志到適當的目的地，Filter提供了過濾日志信息的方法，Formatter指定日志顯示格式。另外，可以通過：logger.setLevel(logging.Debug)設置級別。

import logging

#logger對象
logger = logging.getLogger()   #創建一個logger對象
logger.setLevel(logging.DEBUG) #設置輸出等級
fm = logging.Formatter('%(asctime)s - %(name)s - %(levelname)s - %(message)s')  #設置文件編寫格式

fh = logging.FileHandler('b.log') #創建一個hander 負責產生文件數據
sh = logging.StreamHandler()      #創建一個hander 負責產生屏幕數據

fh.setFormatter(fm)  #設置格式
sh.setFormatter(fm)  #設置格式

logger.addHandler(fh)  #接收文件的數據流
logger.addHandler(sh)  ##接收屏幕的數據流

logger.debug('logger debug message')
logger.info('logger info message')
logger.warning('logger warning message')
logger.error('logger error message')
logger.critical('日志信息')

二、序列化模塊 json （可支持跨語言之間的轉換！）

　　之前我們學習過用eval內置方法可以將一個字符串轉成python對象，不過，eval方法是有局限性的，對於普通的數據類型，json.loads和eval都能用，但遇到特殊類型的時候，eval就不管用了,所以eval的重點還是通常用來執行一個字符串表達式，並返回表達式的值。

1、什么是序列化

　　我們把對象(變量)從內存中變成可存儲或傳輸的過程稱之為序列化，序列化之后，就可以把序列化后的內容寫入磁盤，或者通過網絡傳輸到別的機器上。反過來，把變量內容從序列化的對象重新讀到內存里稱之為反序列化。

　1）json

　　如果我們要在不同的編程語言之間傳遞對象，就必須把對象序列化為標准格式，比如XML，但更好的方法是序列化為JSON，因為JSON表示出來就是一個字符串，可以被所有語言讀取，也可以方便地存儲到磁盤或者通過網絡傳輸。JSON不僅是標准格式，並且比XML更快，而且可以直接在Web頁面中讀取，非常方便。JSON表示的對象就是標准的JavaScript語言的對象一個子集，JSON和Python內置的數據類型對應如下：

序列化：json.dumps()
反序列化：json.loads() #只要是json字符串，就能反序列化回去

import json

d = {'name':'egon'}
s = json.dumps(d)  #將字典d轉為json字符串  序列化過程
print(type(s))
print(s)  #注意轉換的引號，由單引號轉成了雙引號。形成json字符串


data = json.loads(s) #反序列過程
print(data['name'])

#執行結果：
<class 'str'>
{"name": "egon"}
egon

#dump方式用於文件操作，省掉了write

# # -------------- dump方式  用於文件操作中，先將數據序列化然后寫入文件中!
import json

d={'name':"egon"}

f=open("new2",'w')
json.dump(d,f)#---------1 將字典d轉成json字符串 2 將json字符串寫入f里（！注意參數順序！）
f.close()

f=open("new2")
print(f.read())
f.close()

2）pickle 僅在python中進行序列化轉換，可對任意類型的數據進行序列化轉換。
　　　　操作與json一樣，但是轉換的數據為bytes格式，不可查看

#----------------------------------pickle--------------------

import pickle
import datetime

t=datetime.datetime.now()
d={"data":t}
print(d)
s=pickle.dumps(d)  #序列化
print(s,type(s)) #查看序列化的內容，數據類型
s1 = pickle.loads(s) #反序列化
print(s1,type(s1)) #查看序列化的內容，數據類型

三、正則表達式 re 模塊

　　就其本質而言，正則表達式（或 RE）是一種小型的、高度專業化的編程語言，（在Python中）它內嵌在Python中，並通過 re 模塊實現。正則表達式模式被編譯成一系列的字節碼，然后由用 C 編寫的匹配引擎執行。

　　正則就是給字符串操作得。
　　爬蟲里會大量用到字符串。要處理一定是對字符串處理。

　　正則表達式是模糊匹配，這就是正則表達式得真正關鍵所在。

　　匹配是一個一個對應的關系，匹配上就放進自己的列表中。

　1.正則表達式（元字符）：只對字符串進行操作
　　1）操作一個字符
　　通配符點 . 可以替換除了換行符（\n）所有字符，通配符（一個字符）沒有跳過之說。

　　2）操作重復字符（操作元字符前的一個字符）
　　　* 　代表：0到無窮次
　　　+ 　代表：1到無窮次
　　　？　代表：0到1次
　　　{}　｛r,m｝代表：有r-m次

　　　\d 　代表：0-9 的數字
　　　[] 字符集 　中括號內的字符是或的關系，只要匹配到其中一個就可以。

　　　　在字符集中還要注意：*，+ . 等元字符都代表的是普通符號，而 - ^ \　　　　

　　　　[^2] 字符集內的 ^ 是取反的意思。及除字符集內的條件其他的都符合，[\d] 表示的還是數字！

　　3）有特殊意義的字符：

　　　- 　代表：什么到什么的意思例如：[1-9]　　

　　　^　開始匹配從字符串開始位置匹配

　　　$　結尾匹配從字符串結尾位置匹配

　　　() 分組 優先匹配分組的內容
　　　　　　(?:內容) 　　表示取消分組的優先級

　　　| 管道符 表示或的意思

　　　\ 轉義符 將有意義的符號轉成無意義的，將無意義的轉換成有意義的

　　　　1、后面加上一個元字符使其變成普通符號比如：\. \*
　　　　2、將一些普通符號變成特殊符號比如：\d \w

2、re方法

　re.findall(pattern , string) 找到所有的匹配元素，返回列表
　re.finditer() #將拿到的東西整成一個可迭代的對象
　re.search；只匹配第一個結果，匹配到就不再向下匹配，返回一個內存地址，通過.group()的方式獲取匹配的字符串

　re.match:只在字符串開始的位置匹配

　re.split(規則，字符串) 分割以前邊的規則表達式為條件分隔符，對字符串進行分割！可在后邊限制分割次數

　re.sub() 替換
　　　ret4 = re.sub(規則，替換內容，原字符串，次數) 返回一個字符串

　re.subn() 替換返回一個元組（內容，替換次數）

　re.compile(規則) 編譯規則
　　c = compile('\d+') 可操作多個字符串
　　ret5 = c.findall('hello32world')
　　print(ret5)

貪婪匹配與非貪婪匹配！

命名分組：

　整體代碼如下：

# 正則：對字符串的模糊匹配

# key：元字符（有特殊功能的字符）



import re

#元字符

# . :匹配除\n以外的任意符號

print(re.findall("a.+d","abcd"))

# ^:從字符串開始位置匹配
# $：從字符串結尾匹配

print(re.findall("^yuan","yuandashj342jhg234"))
print(re.findall("yuan$","yuandashj342jhg234yuan"))

# * + ?  {} ：重復

print(re.findall("[0-9]{4}","af5324jh523hgj34gkhg53453"))

#貪婪匹配
print(re.findall("\d+","af5324jh523hgj34gkhg53453"))

#非貪婪匹配

print(re.findall("\d+?","af5324jh523hgj34gkhg53453"))
print(re.findall("(abc\d)*?","af5324jh523hgj34gkhg53453"))

# 字符集 []: 起一個或者的意思

print(re.findall("a[bc]d","hasdabdjhacd"))

#注意: * ,+.等元字符都是普通符號， - ^ \

print(re.findall("[0-9]+","dashj342jhg234"))
print(re.findall("[a-z]+","dashj342jhg234"))

print(re.findall("[^\d]+","d2a2fhj87fgj"))


# ()：分組

print(re.findall("(ad)+","addd"))
print(re.findall("(ad)+yuan","adddyuangfsdui"))

print(re.findall("(?:ad)+yuan","adadyuangfsdui"))
print(re.findall("(?:\d)+yuan","adad678423yuang4234fsdui"))

#命名分組

ret8=re.search(r"(?P<A>\w+)\\aticles\\(?P<id>\d{4})",r"yuan\aticles\1234")
ret8=re.search(r"a\\nb",r"a\nb")
print(ret8)
print(ret8.group("id"))
print(ret8.group("A"))


# # |  :或

print(re.findall("www\.(?:oldboy|baidu)\.com","www.oldboy.com"))

# \:轉義

# 1 后面加一個元字符使其變成普通符號 \.  \*
# 2 將一些普通符號變成特殊符號 比如 \d \w

print(re.findall("\d+\.?\d*\*\d+\.?\d*","-2*6+7*45+1.456*3-8/4"))
print(re.findall("\w","$da@s4 234"))
print(re.findall("a\sb","a badf"))

print(re.findall("\\bI","hello I am LIA"))
print(re.findall(r"\dI","hello 654I am LIA"))

print(re.findall(r"c\\l","abc\l"))


#  re的方法

# re.findall()

# re.findall(pattern, string) # 找到所有的匹配元素，返回列表

#獲得迭代器對象
s=re.finditer("\d+","ad324das32")
print(s)

print(next(s).group())
print(next(s).group())


# "(3+7*2+27+7+(4/2+1))+3"

# search;只匹配第一個結果

ret=re.search("\d+","djksf34asd3")
print(ret.group())

# #match:只在字符串開始的位置匹配
ret=re.match("\d+","423djksf34asd3")
print(ret.group())

#split 分割
s2=re.split("\d+","fhd3245jskf54skf453sd",2)
print(s2)

ret3=re.split("l","hello yuan")
print(ret3)

# #sub: 替換

ret4=re.sub("\d+","A","hello 234jkhh23",1)
print(ret4)

ret4=re.subn("\d+","A","hello 234jkhh23")
print(ret4)

#compile: 編譯方法
c=re.compile("\d+")

ret5=c.findall("hello32world53") #== re.findall("\d+","hello32world53")
print(ret5)

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 正則表達式和re模塊 python中的正則表達式（re模塊）正則表達式和python的re模塊 python與正則表達式：re模塊詳解【Python】正則表達式模塊 import re詳解 re模塊 - 正則表達式疏理(一) python3 RE正則（正則表達式） python模塊與正則表達式 python正則表達式(2)--編譯正則表達式re.compile Python3 正則表達式 re 模塊的使用 - 學習筆記