將dataframe分割為訓練集和測試集兩部分


data = pd.read_csv("./dataNN.csv",',',error_bad_lines=False)#我的數據集是兩列,一列字符串,一列為0,1的label
data = np.array(data)
random.shuffle(data)#隨機打亂
#取前70%為訓練集
allurl_fea = [d[0] for d in data]
df1=data[:int(0.7*len(allurl_fea))]
#將np.array轉為dataframe,並對兩列賦列名
df1=pd.DataFrame(df1,columns=['url','label'])
#寫入csv
df1.to_csv("./train_samples.csv",index=False)
#剩余百分之30為測試集
df2=data[int(0.7*len(allurl_fea)):]
df2=pd.DataFrame(df2,columns=['url','label'])
df2.to_csv("./test_samples.csv",index=False)

#由於我的數據集中是二分類的,檢測下兩個類別分別的占比
# print(df2['label'].value_counts())


免責聲明!

本站轉載的文章為個人學習借鑒使用,本站對版權不負任何法律責任。如果侵犯了您的隱私權益,請聯系本站郵箱yoyou2525@163.com刪除。



 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM