原文:(數據科學學習手札134)pyjanitor:為pandas補充更多功能

本文示例代碼及文件已上傳至我的Github倉庫https: github.com CNFeffery DataScienceStudyNotes 簡介 pandas發展了如此多年,所包含的功能已經覆蓋了大部分數據清洗 分析場景,但仍然有着相當一部分的應用場景pandas中尚存空白亦或是現階段的操作方式不夠簡潔方便。 今天我要給大家介紹的Python庫pyjanitor就內置了諸多功能方法,可以在 ...

2022-03-12 18:56 0 971 推薦指數:

查看詳情

數據科學學習手札73)盤點pandas 1.0.0中的新特性

本文對應腳本及數據已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介   毫無疑問pandas已經成為基於Python的數據分析領域最重要的包,而就在最近,pandas終於迎來了1.0.0版本 ...

Thu Jan 23 03:09:00 CST 2020 0 1109
數據科學學習手札86)全平台支持的pandas運算加速神器

本文示例代碼已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介   隨着其功能的不斷優化與擴充,pandas已然成為數據分析領域最受歡迎的工具之一,但其仍然有着一個不容忽視的短板——難以快速處理 ...

Sat Jun 06 02:02:00 CST 2020 1 922
數據科學學習手札92)利用query()與eval()優化pandas代碼

本文示例代碼已上傳至我的Github倉庫https://github.com/CNFeffery/DataScienceStudyNotes 1 簡介   利用pandas進行數據分析的過程,不僅僅是計算出結果那么簡單,很多初學者喜歡在計算過程中創建一堆命名隨心所欲的中間變量,一方 ...

Fri Aug 07 23:26:00 CST 2020 2 1047
數據科學學習手札52)pandas中的ExcelWriter和ExcelFile

一、簡介   pandas中的ExcelFile()和ExcelWriter(),是pandas中對excel表格文件進行讀寫相關操作非常方便快捷的類,尤其是在對含有多個sheet的excel文件進行操控時非常方便,本文就將針對這兩個類的使用方法展開介紹; 二、ExcelFile ...

Thu Nov 22 22:27:00 CST 2018 6 14610
數據科學學習手札68)pandas中的categorical類型及應用

一、簡介   categorical是pandas中對應分類變量的一種數據類型,與R中的因子型變量比較相似,例如性別、血型等等用於表征類別的變量都可以用其來表示,本文就將針對categorical的相關內容及應用進行介紹。 二、創建與應用 2.1 基本特性和適用場景   在介紹 ...

Wed Sep 04 03:27:00 CST 2019 0 2127
數據科學學習手札21)sklearn.datasets常用功能詳解

作為Python中經典的機器學習模塊,sklearn圍繞着機器學習提供了很多可直接調用的機器學習算法以及很多經典的數據集,本文就對sklearn中專門用來得到已有或自定義數據集的datasets模塊進行詳細介紹; datasets中的數據集分為很多種,本文介紹幾類常用的數據集生成方法,本文總結 ...

Sun Apr 01 22:51:00 CST 2018 0 7723
數據科學學習手札25)sklearn中的特征選擇相關功能

一、簡介   在現實的機器學習任務中,自變量往往數量眾多,且類型可能由連續型(continuou)和離散型(discrete)混雜組成,因此出於節約計算成本、精簡模型、增強模型的泛化性能等角度考慮,我們常常需要對原始變量進行一系列的預處理及篩選,剔除掉冗雜無用的成分,得到較為滿意的訓練集,才會 ...

Fri Apr 13 05:15:00 CST 2018 4 1954
 
粵ICP備18138465號   © 2018-2025 CODEPRJ.COM