Notes | 學術前沿趨勢分析


[學習資料github]

 

Task1. 論文數據統計

目標:自己Pandas用得很少,這個task主要練習Pandas基礎

學習Notes:

data = pd.DataFrame(data) #將list變為dataframe格式,方便使用pandas進行分析
data.shape #顯示數據大小
data.head() #顯示數據的前五行
for idx, line in enumerate(f): #遍歷文檔每一行,包括它的index
data.rename(columns={0:'a',1:'b'}, inplace=True) # 修改列名
d = {col : d[col] for col in columns} #獲取dataframe格式的d中指定的一些列
data["categories"].describe() 

粗略統計論文的種類信息:

  • count:一列數據的元素個數;
  • unique:一列數據中元素的種類;
  • top:一列數據中出現頻率最高的元素;
  • freq:一列數據中出現頻率最高的元素的個數;
data["year"] = pd.to_datetime(data["update_date"]).dt.year 

#將update_date從例如2019-02-20的str變為datetime格式,並提取處year
data.reset_index(drop=True, inplace=True) #重新編號
data.merge(df_taxonomy, on="categories").query("group_name == @group_name") 
#使用 merge 函數,對於兩個dataframe 共同的特征 categories 進行合並

 

【未完待續】


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM