Task1. 論文數據統計

目標：自己Pandas用得很少，這個task主要練習Pandas基礎。

學習Notes：

data = pd.DataFrame(data) #將list變為dataframe格式，方便使用pandas進行分析

data.shape #顯示數據大小

data.head() #顯示數據的前五行

for idx, line in enumerate(f): #遍歷文檔每一行，包括它的index

data.rename(columns={0:'a',1:'b'}, inplace=True) # 修改列名

d = {col : d[col] for col in columns} #獲取dataframe格式的d中指定的一些列

data["categories"].describe()

粗略統計論文的種類信息：

data["year"] = pd.to_datetime(data["update_date"]).dt.year 

#將update_date從例如2019-02-20的str變為datetime格式，並提取處year

data.reset_index(drop=True, inplace=True) #重新編號

data.merge(df_taxonomy, on="categories").query("group_name == @group_name") 
#使用 merge 函數，對於兩個dataframe 共同的特征 categories 進行合並

【未完待續】

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。