Task1. 论文数据统计
目标:自己Pandas用得很少,这个task主要练习Pandas基础。
学习Notes:
data = pd.DataFrame(data) #将list变为dataframe格式,方便使用pandas进行分析 |
data.shape #显示数据大小 |
data.head() #显示数据的前五行 |
for idx, line in enumerate(f): #遍历文档每一行,包括它的index |
data.rename(columns={0:'a',1:'b'}, inplace=True) # 修改列名 |
d = {col : d[col] for col in columns} #获取dataframe格式的d中指定的一些列 |
data["categories"].describe() 粗略统计论文的种类信息:
|
data["year"] = pd.to_datetime(data["update_date"]).dt.year |
data.reset_index(drop=True, inplace=True) #重新编号 |
data.merge(df_taxonomy, on="categories").query("group_name == @group_name") |
【未完待续】