本節目錄
-
常用函數一:獲取指定文件夾內所有文件
-
常用函數二:文件合並
-
常用函數三:將文件按時間划分
-
常用函數四:數據去重
寫在前面
寫代碼也有很長時間了,總覺得應該做點什么有價值的事情,寫代碼初始階段覺得做更多的項目,積累更多的經驗是自己應該做的事情,這樣可以使自己短時間內技術水平獲得較大的提升。隨着代碼量和項目的增加,確實體會到了自身水平的進步,但同時由原來的盡可能多的做項目,學知識,逐漸轉變為了盡可能精盡可能專的投入,更准確的說是當有了一定的知識基礎和技術積累,追求不僅僅是知識和項目的廣度,更注重的是自身的深度,學確實自己現在或以后有可能會用到的技術和知識,做自己認為有價值的項目,我想這就是我想表達的。然而,除了不斷的學習,不斷的前進,另外一點就是需要經常做回顧和記錄,我想這就是博客和代碼倉庫的存在的價值,博客可以存儲我們學過的知識,倉庫可以存儲我們寫過的代碼。有了這些東西,我們實現了隨時隨地可以找到我們自己保存的東西。我目前的困擾就是自己積累了大量的經驗和代碼,但是還沒有形成一個系統的體系,很多重復性的工作會經常做,雖然實現過一次之后使用的時候會節省不少時間和精力,但是有時候由於=一些原因,會把時間浪費在找之前寫的代碼過程中,尤其代碼越來越多之后,沒有一個很好的存儲目錄結構,實際上是效率極低的,畢竟自己造的輪子或者搜集的輪子再次使用的時候因為找不到輪子在哪或者速度很慢不是我們追求的結果,這個Python常用函數系列博客就應運而生。
常用函數一:獲取指定文件夾內所有文件
- 方式一:采用os.listdur方式
def print_directory_contents(dir_path, file_list): """ 這個函數接收文件夾的名稱作為輸入參數 返回該文件夾中文件的路徑 以及其包含文件夾中文件的路徑 """ import os for file in os.listdir(dir_path): file_path = os.path.join(dir_path, file) if os.path.isdir(file_path): print_directory_contents(file_path, file_list) else: file_list.append(file_path) if __name__ == '__main__': file_list = [] print_directory_contents('G:/programming/interview_question', file_list) print(file_list)
- 方式二:采用os.walk方式
def print_directory_contents(dir_path): """ 這個函數接收文件夾的名稱作為輸入參數 返回該文件夾中文件的路徑 以及其包含文件夾中文件的路徑 """ import os for base_path, folders, files in os.walk(dir_path): for file in files: file_path = os.path.join(base_path, file) yield file_path if __name__ == '__main__': file_list = print_directory_contents('G:/programming/interview_question') for file in file_list: print(file)
os.listdir和os.walk各適合什么場景?
經驗分享:兩種方式均能實現想要的功能,若讀取單層目錄,選擇os.listdir;若讀取多層目錄,選擇os.walk
常用函數二:文件合並
文件合並是數據處理中會經常用到,按合並類型划分為橫向合並和縱向合並,此功能在pandas中有很好的實現,包含縱向合並append,橫向合並concat和join,橫縱向合並concat。下面的代碼是我基於這四個函數編寫的合並文件通用代碼,基本上這套代碼可以實現你所有的合並文件的需求。
# -*- coding: utf-8 -*- """ Datetime: 2020/07/05 Author: Zhang Yafei Description: 合並文件 """ from pandas import read_csv, read_excel, merge, concat, DataFrame def read_file(file_path, on): if file_path.endswith('.csv'): return read_csv(file_path) if file_path.endswith('.xls') or file_path.endswith('xlsx'): return read_excel(file_path) def df_to_file(df: DataFrame, file_path: str, index: bool = True, encoding: str = 'utf_8_sig'): if file_path.endswith('.csv'): df.to_csv(file_path, index=index, encoding=encoding) if file_path.endswith('.xls') or file_path.endswith('xlsx'): df.to_excel(file_path, index=index) def merge_two_data(file1: str, file2: str, on: str = None, left_on: str = None, right_on: str = None, how: str = 'inner', to_file: str = None): """ 橫向合並兩個文件 @param file1: @param file2: @param on: @param left_on: @param right_on: @param how: @param to_file: @return: """ df1 = read_file(file1) df2 = read_file(file2) merge_df = merge(df1, df2, on=on, how=how, left_on=left_on, right_on=right_on) if to_file: if to_file.endswith('.csv'): merge_df.to_csv(to_file, encoding='utf_8_sig', index=False) elif to_file.endswith('xls') or to_file.endswith('xlsx'): merge_df.to_excel(to_file, index=False) else: return merge_df def append_two_file(file1: str, file2: str, ignore_index: bool = True, to_file: str = None): """ 縱向合並兩個文件 @param file1: @param file2: @param to_file: @return: """ df1 = read_file(file1) df2 = read_file(file2) df3 = df1.append(df2, ignore_index=ignore_index) if to_file: df_to_file(df3, to_file, index=False) else: return df3 def join_two_file(file1: str, file2: str, on=None, left_on=None, right_on=None, how: str = 'left', to_file: str = None): """ 橫向聯接兩個表格文件 @param file1: @param file2: @param on: @param left_on: @param right_on: @param how: @param to_file: @return: None or DataFrame """ if on: df1 = read_file(file1).set_index(keys=on) df2 = read_file(file2).set_index(keys=on) elif left_on or right_on: df1 = read_file(file1).set_index(keys=on) if left_on else read_file(file1) df2 = read_file(file2).set_index(keys=on) if right_on else read_file(file2) else: df1 = read_file(file1) df2 = read_file(file2) df3 = df1.join(df2, how=how) if to_file: df_to_file(df3, to_file, index=False) else: return df3 def concat_mul_file(axis: int = 0, on=None, to_file: str = None, encoding: str = 'utf_8_sig', *files): """ 多個表格文件合並 @param axis: 0/index 1/column 若axis=1, 默認基於索引將多個文件合並 @param on: 當axis=1時,指定索引列/索引列 @param to_file: 導出文件路徑 @param encoding: 導出文件編碼 @param files: 合並文件路徑 @return: """ if len(files) > 1: if axis == 1 and on: objs = [read_file(file).set_index(keys=on) for file in files] else: objs = [read_file(file) for file in files] merge_data = concat(objs=objs, axis=axis) if to_file: df_to_file(merge_data, to_file, index=False, encoding=encoding) else: return merge_data else: raise Exception('合並的文件個數小於2,不能進行合並,請輸入大於等於兩個文件路徑')
經驗分享:若為兩個文件合並,橫向合並可以選擇merge,join,concat,縱向合並可以選擇append,concat,若為多個文件合並(大於2),只能選擇concat。
常用函數三:將文件按時間划分
一個文件若有一列是時間類型,那么處理此類數據時經常會有一個需求就是按照時間點划分此文件為多個文件,從實現上來說,讀取文件之后,把時間那一列轉換為時間類型,然后可以利用時間類型可以直接比較的,那么這樣就可以實現划分的目的。以下是具體實現通用代碼。
# -*- coding: utf-8 -*- """ Datetime: 2020/06/25 Author: Zhang Yafei Description: 將文件按時間段划分 """ import pandas as pd from datetime import datetime def data_part(file_path, col, time_list): df = pd.read_excel(file_path) df[col] = pd.to_datetime(df[col]) for t in range(len(time_list)): if t != len(time_list) - 1: data = df[(df[col] >= time_list[t]) & (df[col] <= time_list[t+1])] else: data = df[(df[col] >= time_list[t])] data.to_excel(f"{file_path}_{t}.xlsx", index=False) if __name__ == '__main__': time_list = [datetime(2020, 1, 21), datetime(2020, 1, 24), datetime(2020, 2, 3)] data_part('山西政策.xlsx', col='發布時間', time_list=time_list)
經驗分享:此功能函數可以直接拿來用,但是簡單的幾行代碼,對於其應用場景和使用熟練的運用可以幫助我們實現更復雜的功能。
常用函數四:數據去重
# -*- coding: utf-8 -*- """ Datetime: 2020/06/29 Author: Zhang Yafei Description: 04_數據去重 """ from pandas import read_csv, read_excel def data_drop_duplicate(file: str, to_file: str, columns: list = None, keep: str = 'first'): """ :param file: 要去重的文件路徑 :param to_file: 去重之后保存的文件路徑 :param columns: 哪些列重復的去重 :param keep: 重復的情況下,保留方式,默認 'first' """ if file.endswith('csv'): df = read_csv(file) else: df = read_excel(file) if columns: df.drop_duplicates(subset=columns, keep=keep, inplace=True) else: df.drop_duplicates(keep=keep, inplace=True) if to_file.endswith('csv'): df.to_csv(to_file, index=False) elif to_file.endswith('xlsx') or to_file.endswith('xls'): df.to_excel(to_file, index=False) if __name__ == '__main__': # 修改參數 file 文件名 columns 去重的列 to_file 去重之后新文件名 data_drop_duplicate(file='data.xlsx', columns=['id', 'title'], to_file='new_data.xlsx')
經驗分享:這個功能Python實現起來是非常的方便,基本上關鍵功能只需一行代碼,之前覺得這個功能很簡單,而且我用的時候這只是其中很小的一個步驟,沒必要單獨記錄下來。直到后來有同學經常單獨那這個功能來問我,我就覺得有必要記錄下來了,我相信這也是這個系列博客存在的意義,記錄過往,記錄曾經,不重復造輪子,但造出來的輪子隨時可以找到拿來用,所以這系列的博客定位就是利用輪子倉庫幫助理解實際應用的知識,從而更好的提高自己的邏輯能力,理解代碼的能力和具體寫代碼的能力,不積跬步無以至千里,不積小流無以成江海,核心道理就是積少成多,直至某一天完成質變。