Task1. 论文数据统计

目标：自己Pandas用得很少，这个task主要练习Pandas基础。

学习Notes：

data = pd.DataFrame(data) #将list变为dataframe格式，方便使用pandas进行分析

data.shape #显示数据大小

data.head() #显示数据的前五行

for idx, line in enumerate(f): #遍历文档每一行，包括它的index

data.rename(columns={0:'a',1:'b'}, inplace=True) # 修改列名

d = {col : d[col] for col in columns} #获取dataframe格式的d中指定的一些列

data["categories"].describe()

粗略统计论文的种类信息：

data["year"] = pd.to_datetime(data["update_date"]).dt.year 

#将update_date从例如2019-02-20的str变为datetime格式，并提取处year

data.reset_index(drop=True, inplace=True) #重新编号

data.merge(df_taxonomy, on="categories").query("group_name == @group_name") 
#使用 merge 函数，对于两个dataframe 共同的特征 categories 进行合并

【未完待续】

本站转载的文章为个人学习借鉴使用，本站对版权不负任何法律责任。如果侵犯了您的隐私权益，请联系本站邮箱yoyou2525@163.com删除。

猜您在找 最新前沿：2019 年大前端技术趋势分析 Ultrawide bandwidth(UWB)技术前沿超分辨率技术前沿调研 Web技术前沿：那些让人惊叹的 CSS3 应用演示人工智能和长生技术前沿跟踪调查数据挖掘的发展趋势和研究前沿趋势分析的4个关键要素案例分析——Who is the king of handwriting notes? 2021 测试新趋势：测试前沿技术和行业发展解析实例 | 能源区块链、物联网技术在智能电网中的趋势及前沿应用