在數據挖掘項目中,有時候個體的出生日期包含信息量過大,不適合作為一個有效數據進入模型算法訓練,因此有必要把出生日期轉化為年齡age,age是一個很好的特征工程指示變量。
import pandas as pd import numpy as np from pandas import Series, DataFrame import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline data = {'birth':['10/8/00', '7/21/93', '6/14/01', '5/18/99', '1/5/98']} frame = DataFrame(data)
1.首先將birth轉化為標准時間格式
frame['birth'] = pd.to_datetime(frame['birth'])
2.獲取當前時間的年份,並且減去birth的年份
import datetime as dt now_year = dt.datetime.today().year frame['age'] = now_year - frame.birth.dt.year
使用dt.datetime.today().year獲取當前日期的年份,利用frame.birth.dt.year將生日中的年份提取出來即可。
END 2018-11-05 10:10:08