第一次寫博客,寫的可能有點亂,有問題可以一起探討。格式可能控制也不是太好。
1.日常的數據集大多帶有中文格式,例如“公務員招聘崗位匯總.xls”。我們使用pandas的read_csv()函數讀取可能會出現無法解碼的情況。強制更改xls為csv后綴可能會導致中文數據亂碼
pandas中內置的read_excel()函數可直接將xls(xlsx)文件讀取,返回一個dataframe
代碼如下:
import pandas as pd import numpy as np information1=pd.read_excel("job4.xlsx")
2.當我們需要從上千個崗位中挑選出自己需要的崗位時,如果一個一個從excel表格中檢索時效率特別低,而且可能會漏掉一些崗位
pandas的數據篩選切片可直接幫你篩選出你需要的崗位:例如選取招聘崗位為“材料類”的
1 df_cl=information1[information1.專業.str.contains("材料")]#直接切片
#pandas進行多條件聯合篩選時不能用 and 和or 進行限制。對應使用&和| 代替
上述代碼中:專業 是excel表的列名
series.str.contains("str1XXXXXX") 字符匹配
3.將篩選返回的df_cl Dataframe輸出為本地的excel文件,即可過濾掉不需要的信息
df_cl.to_excel('材料專業崗位4.xlsx')
注:dataframe.to_excel()函數需要openpyxl庫
輸出的xls文件在你的項目文件里