Pandas 基礎(6) - 用 replace() 函數處理不合理數據

本文轉載自查看原文 2019-02-23 11:12 679 pandas/ python/ data analysis/ 數據分析/ Pandas

首先, 還是新建一個 jupyter notebook, 然后引入 csv 文件(此文件我已上傳到博客園):

import pandas as pd import numpy as np df = pd.read_csv('/Users/rachel/Sites/pandas/py/pandas/6_handling_missing_data_replace/weather_data.csv') df

輸出:

從上面的輸出截圖, 可以看到有很多不合理的數據, 這時可以用 replace() 函數來處理:

new_df = df.replace([-99999, -88888], np.NaN)

輸出:

這時, 就還剩下 event 列里的 0 還沒有改, 因為沒辦法簡單粗暴地把數字 0 放到 replace 函數的數組里, 這樣會影響其他列的值. 這個解決辦法相信大家也都不會陌生了, 就是利用 python 的 dictionary:

new_df = df.replace({ 'temperature' : -99999, 'windspeed':[-99999, -88888], 'event': '0' }, np.NaN)

下面我們再來改下原 csv 文件, 把其中各別數據加上"單位":

如果我們想把多余的字母單位去掉, 可以用正則:

new_df = df.replace('[A-Za-z]','', regex=True)

這樣替換之后, 大家可以看一眼輸出結果, 發現 event 列的內容都沒有了, 因為字母都被替換掉了. 所以還是要這樣做:

new_df = df.replace({ 'temperature': '[A-Za-z]', 'windspeed': '[A-Za-z]' } ,'', regex=True)

下面再介紹另一個特性
首先

df = pd.DataFrame({ 'score': ['exceptional', 'average', 'good', 'poor', 'average', 'exceptional'], 'student': ['rob', 'maya', 'jorge', 'tom', 'july', 'erica'] })

輸出:

大家可以看到目前 score 列是用4個形容詞來體現成績的, 那如果想把它們按照等級換成 1-4分呢?

new_df = df.replace(['poor', 'average', 'good', 'exceptional'], [1, 2, 3, 4])

輸出:

以上, 就是 replace() 函數的相關內容, enjoy~~~

免責聲明！

本站轉載的文章為個人學習借鑒使用，本站對版權不負任何法律責任。如果侵犯了您的隱私權益，請聯系本站郵箱yoyou2525@163.com刪除。

猜您在找 VMware中CPU分配不合理以及License限制引起的SQL Scheduler不能用於查詢處理 "ORA-01460: 轉換請求無法實現或不合理"及C#操作Blob總結 Win7秘籍如何用壓縮卷調整不合理分區 fixed Oracle SQL報錯 #ORA-01460: 轉換請求無法實施或不合理記一次使用BCryptPasswordEncoder，設置了不合理參數導致耗時嚴重的坑編寫一個程序，要求輸入三角形的3條邊，然后判斷是否合理，如果不合理，給出信息並要求重新輸入；如果合理，計算其面積並將結果存入文件中--p209_3 【python基礎】利用pandas處理Excel數據 4-Pandas數據預處理之數據轉換（df.map()、df.replace()） pandas批量處理數據 pandas數據統計插件的連接函數concat()妙用，靈活處理數據對象！