Task1. 論文數據統計
目標:自己Pandas用得很少,這個task主要練習Pandas基礎。
學習Notes:
data = pd.DataFrame(data) #將list變為dataframe格式,方便使用pandas進行分析 |
data.shape #顯示數據大小 |
data.head() #顯示數據的前五行 |
for idx, line in enumerate(f): #遍歷文檔每一行,包括它的index |
data.rename(columns={0:'a',1:'b'}, inplace=True) # 修改列名 |
d = {col : d[col] for col in columns} #獲取dataframe格式的d中指定的一些列 |
data["categories"].describe() 粗略統計論文的種類信息:
|
data["year"] = pd.to_datetime(data["update_date"]).dt.year |
data.reset_index(drop=True, inplace=True) #重新編號 |
data.merge(df_taxonomy, on="categories").query("group_name == @group_name") |
【未完待續】