標簽【R】 - 碼上歡樂

Data Frame一般被翻譯為數據框，感覺就像是R中的表，由行和列組成，與Matrix不同的是，每個列可以是不同的數據類型，而Matrix是必須相同的。 Data Frame每一列有列名，每一 ...

在日常學習或工作中經常會使用線性回歸模型對某一事物進行預測，例如預測房價、身高、GDP、學生成績等，發現這些被預測的變量都屬於連續型變量。然而有些情況下，被預測變量可能是二元變量，即成功或失敗、流失或 ...

時間序列（time series）是一系列有序的數據。通常是等時間間隔的采樣數據。如果不是等間隔，則一般會標注每個數據點的時間刻度。 time series data mining 主要包括deco ...

kmeans聚類理論篇

前言 kmeans是最簡單的聚類算法之一，但是運用十分廣泛。最近在工作中也經常遇到這個算法。kmeans一般在數據分析前期使用，選取適當的k，將數據分類后，然后分類研究不同聚類下數據的特點。本文 ...

分析數據要做的第一件事情，就是觀察它。對於每個變量，哪些值是最常見的？值域是大是小？是否有異常觀測？ ggplot2圖形之基本語法： ggplot2的核心理念是將繪圖與數據分離，數據相關的繪圖與數 ...

R語言與數據挖掘：公式；數據；方法 R語言特征對大小寫敏感通常，數字，字母，. 和 _都是允許的(在一些國家還包括重音字母)。不過，一個命名必須以 . 或者字母開頭，並且如 ...

統計學上分布有很多，在R中基本都有描述。因能力有限，我們就挑選幾個常用的、比較重要的簡單介紹一下每種分布的定義，公式，以及在Ｒ中的展示。統計分布每一種分布有四個函數：d――density（密度函數），p――分布函數，q――分位數函數，r――隨機數函數。比如，正態分布 ...

在R語言的幫助文檔里，apply函數的功能是： Retruns a vector or array or list of values obtained by applying a function ...

Excel是數據分析中最常用的工具，本篇文章通過python與excel的功能對比介紹如何使用python通過函數式編程完成excel中的數據處理及分析工作。在Python中pandas庫用於數據處理 ...

前言：近段時間學習R語言用到最多的數據格式就是data.frame，現對data.frame常用操作進行總結，其中函數大部分來自dplyr包，該包由Hadley Wickham所作，主要用於數據的清洗 ...