Data Frame一般被翻譯為數據框,感覺就像是R中的表,由行和列組成,與Matrix不同的是,每個列可以是不同的數據類型,而Matrix是必須相同的。 Data Frame每一列有列名,每一 ...
Data Frame一般被翻譯為數據框,感覺就像是R中的表,由行和列組成,與Matrix不同的是,每個列可以是不同的數據類型,而Matrix是必須相同的。 Data Frame每一列有列名,每一 ...
在日常學習或工作中經常會使用線性回歸模型對某一事物進行預測,例如預測房價、身高、GDP、學生成績等,發現這些被預測的變量都屬於連續型變量。然而有些情況下,被預測變量可能是二元變量,即成功或失敗、流失或 ...
時間序列(time series)是一系列有序的數據。通常是等時間間隔的采樣數據。如果不是等間隔,則一般會標注每個數據點的時間刻度。 time series data mining 主要包括deco ...
前言 kmeans是最簡單的聚類算法之一,但是運用十分廣泛。最近在工作中也經常遇到這個算法。kmeans一般在數據分析前期使用,選取適當的k,將數據分類后,然后分類研究不同聚類下數據的特點。 本文 ...
分析數據要做的第一件事情,就是觀察它。對於每個變量,哪些值是最常見的?值域是大是小?是否有異常觀測? ggplot2圖形之基本語法: ggplot2的核心理念是將繪圖與數據分離,數據相關的繪圖與數 ...
R語言與 數據挖掘:公式;數據;方法 R語言特征 對大小寫敏感 通常,數字,字母,. 和 _都是允許的(在一些國家還包括重音字母)。不過,一個命名必須以 . 或者字母開頭,並且如 ...
統計學上分布有很多,在R中基本都有描述。因能力有限,我們就挑選幾個常用的、比較重要的簡單介紹一下每種分布的定義,公式,以及在R中的展示。 統計分布每一種分布有四個函數:d――density(密度函數),p――分布函數,q――分位數函數,r――隨機數函數。比如,正態分布 ...
在R語言的幫助文檔里,apply函數的功能是: Retruns a vector or array or list of values obtained by applying a function ...
Excel是數據分析中最常用的工具,本篇文章通過python與excel的功能對比介紹如何使用python通過函數式編程完成excel中的數據處理及分析工作。在Python中pandas庫用於數據處理 ...
前言:近段時間學習R語言用到最多的數據格式就是data.frame,現對data.frame常用操作進行總結,其中函數大部分來自dplyr包,該包由Hadley Wickham所作,主要用於數據的清洗 ...