基於python的數據分析
1.為什么要進行數據分析
簡答:人工智能,大數據等數據的采集需要數據 -----數據通過python分析而來--進行數據的清洗操作----建立數據模型Model
-----生成一個目標數據----預測未來---得到結果
2.企業數據存在的形式
(1):存在‘文件’例如:excel word csv txt...
(2):數據庫 例如:mysql oracle DB2 SQLserver...
3.數據解析之read_table read_excel
(1):再數據分析里面分析讀取文本數據用:
read_table --也可以快速讀取大數據,海量數據,人工智能的數據集
read_excel --是指定讀取excel類型的數據
傳統的大數據開發就是再excel里面進行數據分析,所以excel可以處理大數據庫~
(2):在以上兩個方法里面。可以通過names屬性給列起名稱,方便數據的讀取
(3):導入csv文件類型
i.處理數據的編碼格式方法
通過EditsPlus或者UE開發工具可以進行編碼的切換 ---開發天天使用
對於大數據的數據集不能利用轉碼的代碼機制去直接轉碼,這樣導致服務器,數據等發送異常情況1 --建議使用第三方工具直接操作數據集--面試問
ii:導入csv的文件需要通過read_csv
思考:csv和word excel wps txt 等通過那個數據集更好?
csv自身可以處理編碼問題
總結:read_table /excel/csv 等,全部返回值是DataFrame
4.到模塊/導包的區別
from pandas import DataFrame
import pandas as pd
備注:to_csv不僅僅將手動創建的文件數據,也可以將受到創建的文件,通過數據存放至指定文件 建議大量使用!安全數據維護簡單
df.to_csv('E:/pythonData01/hello.txt')
df.to_csv('E:/pythonData01/hello.xls')
df.to_csv('E:/pythonData01/hello.xlsx')
注意:1.導出的文件格式不受限制,可以通過to_csv進行導出不同文件類型
2.通過csv可以導出任意類型的文件。所以csv導出文件首選
5: 除去重復數據
df10=pd.read_csv('d:/pythondata01/data.csv')
newdfdata=df10.drop_duplicates()#此方法可以除去重復數據
print('新數據:',newdfdata)
6:數據抽取 通過slice方法 ,但是數據抽取之前必須將數據轉化為str
通過astype(str)-通過index抽取、----數據在列表里面
df11=read_csv('d:/pythondata01/datap.csv')
#df['tel'] = df['tel'].astype(str);
#astype(str)表示的將數據轉化為字符串 ----電話號碼、身份證等都是字符串組成,而不是整數
#結果:還是需要將一個完整的數據進行拼接----拼接---自然是字符串操作!
7:數據字段拆分
newDF12 = df12['name'].str.split(' ', 2, True);
newDF13 = df13['name'].str.split(' ', 1, False);
總結 newDF12 = df12['name'].str.split(' ', 2, True); --數據拆分可讀性差
newDF13 = df13['name'].str.split(' ', 1, False); --數據拆分可讀性很好
