本文總結使用Python對常見的數據文件進行讀寫操作。
- 本文所用的示例數據下載,提取碼: sjgz
- pandas官網的數據I/O部分是很好的學習材料
txt
txt的讀入
## 文件讀取
# 文件路徑
file_in = os.path.join(workdir,'Data/demo_text.txt')
# 打開文件
f_in = open(file_in, encoding='utf-8')
# 將每行的文本讀取,並存為列表
# 此處使用.rstrip()去除右側的空格、換行符等
lines_raw = [x.rstrip() for x in f_in]
# 或者
# lines_raw = [l.rstrip() for l in f.readlines()]
print(lines_raw)
# 關閉文件
f_in.close()
如果txt內部存儲的是表格(dataframe)格式的數據,那么可以直接用pandas.read_csv
來讀取。
df_txt = pd.read_csv(file_in, names=['txt'], encoding='utf-8')
df_txt.head()
txt的寫出
# 文件輸出
file_out = os.path.join(workdir,'Data/out_text.txt')
f_out = open(file_out, encoding='utf-8',mode = 'w')
f_out.writelines(lines_raw)
f_out.close()
上面的列子是一次寫入所有行。
也可以使用.writeline
方法一行一行寫入,比如寫log日志。
# 程序執行的日志
file_log = os.path.join(workdir,'Data/run_log.txt')
f_log = open(file_log, encoding='utf-8',mode = 'w')
for i in range(5):
line = 'this is %d run \n'%i
f_log.write(line)
f_log.close()
csv
csv即逗號分隔的文件,可以使用的包
pandas
在數據分析中最常用,功能也很強大,這里只示范pandas的用法
# 定義文件路徑
file_csv = os.path.join(workdir,'Data/demo_csv.csv')
# pandas.read_csv()函數來讀取文件
df_csv = pd.read_csv(file_csv,sep=',',encoding='utf-8')
# dataframe.to_csv()保存csv文件
# 保存文件的時候一定要注意encoding
df_csv.to_csv('out_csv',index=False,encoding='utf-8')
也可以用來讀取在線的文件,文件的后綴可能是txt、data之類的,不過沒關系,只要里面存的是表格(dataframe)格式的數據,就可以用pandas.read_csv
來讀取。
#此處使用UCI機器學習用的數據
url_data = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
# 字段描述見https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names
df_adult = pd.read_csv(url_data, sep=',', names = col_names,index_col=None)
xls\xlsx
pandas工具包中也提供了相應的函數來讀寫excel文件(pandas.read_excel()
和dataframe.to_excel()
)。
更多參考
不同於csv文件,xlsx文件中會有多個sheet,pandas.read_excel函數默認讀取第一個sheet.
# 定義文件路徑
file_excel = os.path.join(workdir,'Data/demo_xlsx.xlsx')
# pandas.read_excel()函數來讀取文件
# sheet_name=0表示讀取第一個sheet,也可以指定要讀取的sheet的名稱(字符串格式)
# header=0 表示使用第一行作為表頭(列名)
# 如果數據中沒有列名(表頭),可以設置header=None,同時names參數來指定list格式的列名
df_excel = pd.read_excel(file_excel,sheet_name=0,header=0,encoding='utf-8')
# dataframe.to_csv()保存csv文件
# 保存文件的時候一定要注意encoding
df_excel.to_excel('out_excel.xlsx',index=False,encoding='utf-8')
如果我們是想在單元格顆粒度上進行操作,可以考慮兩個工具包:
這里用xlwings示范自動化“填表”,比如現在有3個項目對應的3個單元格需要填寫。
@w=500
如果要批量從多個統一格式的excel文件中讀取多個單元格或者寫入數據,可參考如下代碼。
import xlwings as xw
file_excel = os.path.join(workdir,'Data/demo_填表.xlsx')
# 打開excel文件的時候不要展示頁面
app = xw.App(visible=False)
# 打開工作簿
wb = xw.Book(file_excel)
# 打開工作表
# 可以用index,可以指定sheet的名稱
ws = wb.sheets[0]
# 讀取對應單元格的值
print(ws.range('A1').value)
ws.range('B1').value = 'Ahong'
ws.range('B2').value = '男'
ws.range('B3').value = 'Pyhon'
# 保存工作簿
wb.save()
# 也可以保存為新的文件名,e.g.wb.save('new.xlsx')
# 關閉工作簿
wb.close()
在線網頁數據
在線網頁數據通常需要網絡爬蟲來抓取,同時網頁是半結構化的數據,需要整理為結構化的數據。
關於網絡爬蟲可以參考如下兩本書:
- Web Scraping with Python: Collecting More Data from the Modern Web, Ryan Mitchell, O’Reilly書系,中文版是Python網絡爬蟲權威指南
- Python 3網絡爬蟲開發實戰,崔慶才,也可以訪問作者的博客
常用的工具
網頁數據的爬取和解析常會用到的工具包
-
lxml, 解析網頁中的css目錄很好用
-
[json](https://docs.python.org/3/library/json.html, 處理json格式數據),json和html是常見的半結構化數據
-
pandas,主要是對結構化的數據(dataframe)進行處理
爬蟲的步驟
通常網絡爬蟲的步驟如下:
- 分析網頁請求規范,比如是get還是post,請求的url是啥,返回的數據是什么格式(json?靜態html?),header參數,url或者post中的變量有什么等;
- 獲取網頁數據,使用requests包;
- 解析網頁數據(將半結構化的網頁數據轉化為結構化數據),BeautifulSoup、lxml、re、json齊上陣;
- 整合數據並存檔,使用pandas對數據進行整合並初步清洗。
參考資料:
對於pdf文件而言,如果要對文檔操作(比如合並、篩選、刪除頁面等),建議使用的工具包:
處理pdf文件時,要注意文件需要是“無密碼”狀態,“加密”狀態的文件處理時會報錯。
pdf解密工具推薦:
這里舉例說明兩個包的用法:篩選奇數頁面並保存為新文檔。
pdfrw
from pdfrw import PdfReader
pdf_r = PdfReader(os.path.join(workdir,'Data/demo_pdf.pdf'))
from pdfrw import PdfWriter
pdf_w = PdfWriter()
page_cnt = pdf_r.numPages
# 篩選奇數頁面
for i in range(0,page_cnt,2):
pdf_w.addpage(pdf_r.pages[i])
pdf_w.write('filtered_pages.pdf')
y.write('dd.pdf')
PyPDF2
import PyPDF2
# 讀入文件路徑
file_in = os.path.join(workdir,'Data/demo_pdf.pdf')
# 打開要讀取的pdf文件
f_in = open(file_in,'rb')
# 讀取pdf文檔信息
pdfReader = PyPDF2.PdfFileReader(f_in)
# pdf文件頁面數
page_cnt = pdfReader.getNumPages()
pdfWriter = PyPDF2.PdfFileWriter()
# 篩選奇數頁面
for page_idx in range(0,page_cnt,2):
page = pdfReader.getPage(page_idx)
pdfWriter.addPage(page)
# 輸出文檔
file_out = open('pdf_out.pdf', 'wb')
pdfWriter.write(file_out)
# 關閉輸出的文件
file_out.close()
# 關閉讀入的文件
# pdf_file.close()
提取文檔信息
如果要解析pdf文件的頁面數據(文件上都寫了啥),推薦的工具包為:
- textract,該工具包支持多種格式文件的數據提取
- pdfminer.six,使用方法同pdfminer是一樣的。pdfminer的使用方法參考這里
安裝好pdfminer.six后,直接在命令行中調用如下命令即可:
pdf2txt.py demo_pdf.pdf -o demo_pdf.txt
或者參考stackoverflow問答可以自定義一個函數批量對pdf進行轉換(文末附有該函數)。
批量提取PDF內容的代碼
# ref: https://stackoverflow.com/questions/26494211/extracting-text-from-a-pdf-file-using-pdfminer-in-python
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO
def convert_pdf_to_txt(path):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
codec = 'utf-8'
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
fp = open(path, 'rb')
interpreter = PDFPageInterpreter(rsrcmgr, device)
password = ""
maxpages = 0
caching = True
pagenos=set()
for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
interpreter.process_page(page)
text = retstr.getvalue()
fp.close()
device.close()
retstr.close()
return text
textract使用示例
import textract
# 文件路徑
file_pdf = os.path.join(workdir,'Data/demo_pdf.pdf')
# 提取文本
text = textract.process(file_pdf)
word文檔
其他統計軟件生成文件
可以使用的工具包:
pandas.read_sas
,pandas.read_spss
,pandas.read_stata
- pyreadstat,可以讀取SAS,SPSS,Stata等統計軟件導出的數據文件。
SPSS生成的.sav文件
# 使用Python讀取.sav文件
# https://github.com/Roche/pyreadstat
import pyreadstat
# 文件路徑
file_data = os.path.join(workdir,'Data/demo_sav.sav')
# 讀取文件
df,meta = pyreadstat.read_sav(file_data)
# df就是轉化后的數據框
# 查看編碼格式
print(meta.file_encoding)
pyreadstat包還可以讀取sas,stat的數據文件
Function in this package | Purpose |
---|---|
read_sas7dat | read SAS sas7bdat files |
read_xport | read SAS Xport (XPT) files |
read_sas7bcat | read SAS catalog files |
read_dta | read STATA dta files |
read_sav | read SPSS sav and zsav files |
read_por | read SPSS por files |
set_catalog_to_sas | enrich sas dataframe with catalog formats |
set_value_labels | replace values by their labels |