R語言 ggplot2包

分析數據要做的第一件事情，就是觀察它。對於每個變量，哪些值是最常見的？值域是大是小？是否有異常觀測？

ggplot2的核心理念是將繪圖與數據分離，數據相關的繪圖與數據無關的繪圖分離
ggplot2是按圖層作圖
ggplot2保有命令式作圖的調整函數，使其更具靈活性
ggplot2將常見的統計變換融入到了繪圖中。
ggplot的繪圖有以下幾個特點：第一，有明確的起始（以ggplot函數開始）與終止（一句語句一幅圖）；其二，圖層之間的疊加是靠“+”號實現的，越后面其圖層越高。
ggplot圖的元素可以主要可以概括如下：最大的是plot（指整張圖，包括background和title），其次是axis（包括stick，text，title和stick）、legend（包括backgroud、text、title）、facet這是第二層次，其中facet可以分為外部strip部分（包括backgroud和text）和內部panel部分（包括backgroud、boder和網格線grid，其中粗的叫grid.major，細的叫grid.minor）。
ggplot2里的所有函數可以分為以下幾類：
用於運算（我們在此不講，如fortify_，mean_等）
初始化、展示繪圖等命令（ggplot，plot，print等）
按變量組圖（facet_等）
真正的繪圖命令（stat_，geom_，annotate），這三類就是實現一個函數一個圖層的核心函數。
微調圖型：嚴格意義上說，這一類函數不是再實現圖層，而是在做局部調整。
aes : 同樣適用於修改geom_XXX() aes參數控制了對哪些變量進行圖形映射，以及映射方式
圖形屬性（aes）橫縱坐標、點的大小、顏色，填充色等

ggplot(data = , aes(x = , y = )) +
geom_XXX(...) + ... + stat_XXX(...) + ... +
annotate(...) + ... + labs(...) +
scale_XXX(...) + coord_XXX(...) + guides(...) + theme(...) +
facet_XXX(...)
#完整ggplot2繪圖示意：
library(ggplot2)
attach(iris)
p <- ggplot(data=iris,aes(x = Sepal.Length,y = Sepal.Width))
p + geom_point(aes(colour = Species)) + stat_smooth() +
labs(title = "Iris of Sepal.length \n According to the Sepal.Width") +
theme_classic() + theme_bw() +annotate("text",x=7,y=4,parse = T,label = "x[1]==x[2]",size=6, family="serif",fontface="italic", colour="darkred")

geom :表示幾何對象，它是ggplot中重要的圖層控制對象，因為它負責圖形渲染的類型。
幾何對象（geom_）上面指定的圖形屬性需要呈現在一定的幾何對象上才能被我們看到，這些承載圖形屬性的對象可能是點，可能是線，可能是bar

stat :統計變換比如求均值，求方差等，當我們需要展示出某個變量的某種統計特征的時候，需要用到統計變換

annotate：添加注釋 #由於設置的文本會覆蓋原來的圖中對應的位置，可以改變文本的透明度或者顏色例： annotate(geom='text')會向圖形添加一個單獨的文本對象 annotate("text",x=23,y=200,parse=T,label = "x[1]==x[2]")

labs : labs(x = "這是 X 軸", y = "這是 Y 軸", title = "這是標題") ## 修改文字

scale_: 標度是一種函數，它控制了數學空間到圖形元素空間的映射。一組連續數據可以映射到X軸坐標，也可以映射到一組連續的漸變色彩。一組分類數據可以映射成為不同的形狀，也可以映射成為不同的大小，這就是與aes內的各種美學（shape、color、fill、alpha）調整有關的函數。

coord_：調整坐標，控制了圖形的坐標軸並影響所有圖形元素. 調整坐標 coord_flip()來翻轉坐標軸。使用xlim()和ylim()來設置連續型坐標軸的最小值和最大值 coord_cartesian(xlim=c(0,100),ylim=c(0,100))

theme：調整不與數據有關的圖的元素的函數。theme函數采用了四個簡單地函數來調整所有的主題特征：element_text調整字體，element_line調整主題內的所有線，element_rect調整所有的塊，element_blank清空。theme(panel.grid =element_blank()) ## 刪去網格線

facet :控制分組繪圖的方法和排列形式
# 不指定數據集時，data = NULL
一個圖形對象就是一個包含數據，映射，圖層，標度，坐標和分面的列表，外加組件options
ggplot(數據, 映射) geom_xxx(映射, 數據) stat_xxx(映射, 數據)

# 通過“+”實現不同圖層的相應累加，且越往后的圖層表現在上方
點（point, text）：往往只有x、y指定位置，有shape但沒有fill
線(line,vline,abline,hline,stat_function等)：一般是基於函數來處理位置
射(segment)：特征是指定位置有xend和yend，表示射線方向
面(tile, rect)：這類一般有xmax,xmin,ymax,ymin指定位置
棒(boxplot,bin,bar,histogram)：往往是二維或一維變量，具有width屬性
帶(ribbon,smooth):透明是特征是透明的fill
補：包括rug圖，誤差棒(errorbar,errorbarh)
然后，就是按照你的需要一步步加圖層了（使用“+”）。

基本語法：

幾何對象（geom）：用來展示數據的幾何對象，如geom_point,geom_bar,geom_abline；

圖形屬性（aes）：圖形屬性決定了圖形的外觀，如字體大小、標簽位置及刻度線；

坐標（coordinate）：數據如何被映射到圖中。如coord_cartesian:笛卡爾坐標、coord_polar:極坐標、coord_map:地理投影；

統計變換（stat）：對數據進行匯總，如箱線圖：stat_boxplot、線圖：stat_abline、直方圖：stat_bin

分面（facet）：用來描述數據如何被拆分為子集，以及對不同子集是如何繪制的。

幾何對象：

為了指定圖形類型，必須加入圖層，可采用layer()函數。可以使用“point”等短名稱來指定幾何對象。layer函數允許將幾何對象作為名稱和值的配對，這樣就不需要指出函數全名，而只需要geom_后面的部分。幾何對象如下：

統計變換

標度函數

坐標系

分面

位置

Chap1. R 基礎

Chap2. 快速探索數據（略）

## 概述 qplot()函數的語法與基礎繪圖系統類似，簡短易輸入，通常用於探索性數據分析。qplot(x,y,data,geom=c(xx,xx))

條形圖

直方圖

箱線圖

繪制函數圖像

Chap3. 條形圖

重要細節：條形圖的高度表示的是數據集中變量的頻數，還是表示變量取值本身

## 概述條形圖通常用來展示不同的分類下（x軸）某個數值型變量的取值（y軸），其條形高度既可以表示數據集中變量的頻數，也可以表示變量取值本身。

參數

條形圖

對於條形圖的y軸就是數據框中原本的數值時，必須將geom_bar()函數中stat(統計轉換)參數設置為’identity’，即對原始數據集不作任何統計變換，而該參數的默認值為’count’，即觀測數量。

數據集本身是明細數據，而對於統計某個離散變量出現的頻次時，geom_bar()函數中stat(統計轉換)參數只能設置為默認，即’count’。

當然，如果需要對明細數據中的某個離散變量進行聚合(均值、求和、最大、最小、方差等)后再繪制條形圖的話，建議先使用dplyr包中的group_by()函數和summarize()函數實現數據匯總，具體可參見：

上面的兩幅圖對應的x軸均為離散的字符型值，如果x值是數值型時，該如何正確繪制條形圖？

如果直接使用數值型變量作為條形圖的x軸，我們會發現條形圖之間產生空缺，這個空缺其實對應的是3和5兩個值，這樣的圖形並不美觀。為了能夠使條形圖之間不存在類似的空缺，需要將數值型的x轉換為因子，即factor(x)，如下圖所示：

上面幾幅圖的顏色均為灰色的，顯得並不是那么亮眼，為了使顏色更加豐富多彩，可以在geom_bar()函數內通過fill參數可colour參數設置條形圖的填充色和邊框色，例如：

關於顏色的選擇可以在R控制台中輸入colours()，將返回657種顏色的字符。如果想查看所有含紅色的顏色值，可以輸入colours()[grep(‘red’,
colours())]返回27種紅色。

以上繪制的條形圖均是基於一個離散變量作為x軸，如果想繪制兩個離散變量的條形圖即簇條形圖該如何處理呢？具體見下方例子：

對於簇條形圖只需在ggplot()函數的aes()參數中將其他離散變量賦給fill參數即可。這里的position參數表示條形圖的擺放形式，默認為堆疊式(stack)，還可以是百分比的堆疊式。下面分別設置這兩種參數，查看一下條形圖的擺放形式。

發現一個問題，條形圖的堆疊順序(A,B,C)與圖例順序(C,B,A)恰好相反，這個問題該如何處理呢？很簡單，只需再添加guides()函數進行設置即可，如下所示：

同樣，如果覺得R自動配置的填充色不好看，還可以根據自定義的形式更改條形圖的填充色，具體使用scale_fill_brewer()和scale_fill_manual()函數進行顏色設置。

ggplot(data = df, mapping = aes(x = factor(x), y = z, fill = y)) + geom_bar(stat= 'identity', position = 'dodge') + scale_fill_brewer(palette = 'Accent')

scale_fill_manual()函數允許用戶給指定的分類水平設置響應的色彩，個人覺得這個比較方便

按z值的大小，重新排列條形圖的順序，只需將aes()中x的屬性用reorder()函數更改即可。

stat參數和position參數均設置為identity，目的是圖形繪制不要求對原始數據做任何的變換，包括統計變換和圖形變換，排除圖例可以通過scale_fill_manual()函數將參數guide設置為FALSE，同時該函數還可以自定義填充色，一舉兩得。

ggplot(data = df, mapping = aes(x = x, y = y, fill = judge))+
geom_bar(stat = 'identity', position = 'identity')+
scale_fill_manual(values = c('blue','red'), guide = FALSE)+
xlab('Year')

geom_bar()函數可以非常靈活的將條形圖的條形寬度進行變寬或變窄設置,具體通過函數的width參數實現，width的最大值為1，默認為0.9。

x <- c("A","B","C","D","E")
y <- c(10,20,15,22,18)
df <- data.frame(x = x,y = y)
# 不作任何條形寬度的調整
ggplot(df,aes(x = x,y = y))+
geom_bar(stat = "identity",fill = "steelblue",colour = "black")

# 使條形寬度變寬
ggplot(df,aes(x = x,y = y))+geom_bar(stat = "identity",fill = "steelblue",colour = "black",width = 1)

對於簇條形圖來說，還可以調整條形之間的距離，默認情況下，條形圖的組內條形間隔為0，具體可通過函數的position_dodge參數實現條形距離的調整，為了美觀，一般將條形距離設置的比條形寬度大一點。

調整條形寬度和條形距離

geom_text()函數可以方便的在圖形中添加數值標簽，具體微調從幾個案例開始：

ylim設置條形圖中y軸的范圍；size調整標簽字體大小，默認值為5號；colour更換標簽顏色；vjust調整標簽位置，1為分界線，越大於1，標簽越在條形圖上界下方，反之則越在條形圖上上界上方。

# vjust 調整標簽豎直位置,越大,標簽越在條形圖的上界下方；0.5時，則在中間。
# hjust 調整標簽水平位置，越大,標簽越在條形圖的上界左邊；0.5時，則在中間。

對於水平交錯的簇條形圖，必須通過geom_text()函數中的position_dodge()參數來調整標簽位置，hjust=0.5將標簽水平居中放置。

這里的圖形位置與標簽位置擺放必須一致，即圖形位置geom_bar()函數中的position = 'dodge'參數，標簽位置geom_text()函數中的position
= position_dodge(0.9)參數。

對於堆疊的簇條形圖，必須通過geom_text()函數中的position_stack()參數來調整標簽位置，hjust將標簽水平居中放置。

這里的圖形位置與標簽位置擺放必須一致，即圖形位置geom_bar()函數中的position = 'stack'參數，標簽位置geom_text()函數中的position
= position_stack()參數。

補充:統計變換
若x軸變量為連續的，則用sta = bin；
若離散型的,可用stat = “count”或stat = “identity”

Chap4. 折線圖

概述

折線圖可以反映某種現象的趨勢。通常折線圖的橫坐標是時間變量，縱坐標則是一般的數值型變量。當然，折線圖也允許橫縱坐標為離散型和數值型。

折線圖通常用來對兩個連續變量之間的相互依存關系進行可視化。其中x也可以是因子型變量。

簡單折線圖

善於發現的你，可能會注意到上面三段代碼有一個重要的不同之處，那就是第一段和第二段代碼中含有‘group = 1’的設置。這樣做是因為橫坐標的屬性設置為了因子，即將連續型的年份和離散型的字符轉換為因子，如果不添加‘group = 1’這樣的條件，繪圖將會報錯。故務必需要記住這里的易犯錯誤的點！

往折線圖中添加標記（點）當數據點密度比較小或采集分布(間隔)不均勻時，為折線圖做上標記將會產生非常好的效果。處理的方法非常簡單，只需在折線圖的基礎上再加上geom_point()函數即可。

year <- c(1990,1995,2000,2003,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015)

ggplot(data = df, mapping = aes(x = year, y = value)) + geom_line() + geom_point()

從圖中就可以非常明顯的看出，剛開始采集的點分布非常散，而后面采集的點就比較密集，這也有助於對圖的理解和應用。

二、繪制多條折線圖上面繪制的都是單條這折線圖，對於兩個或兩個以上的折線圖該如何繪制呢？也很簡單，只需將其他離散變量賦給諸如colour(線條顏色)和linetype(線條形狀)的屬性即可，具體參見下文例子。

同樣需要注意的是，在繪制多條折線圖時，如果橫坐標為因子，必須還得加上‘group=分組變量’的參數，否則報錯或繪制出錯誤的圖形。

以上繪制的折線圖，均采用默認格式，不論是顏色、形狀、大小還是透明度，均沒有給出自定義的格式。其實ggplot2包也是允許用戶根據自己的想法設置這些屬性的。

雖然這幅圖畫的優點誇張，目的是想說明可以通過自定義的方式，想怎么改就可以怎么改。前提是aes()屬性的內容與自定義的內容對應上。

繪制堆疊的面積圖只需要geom_area()函數再加上一個離散變量映射到fill就可以輕松實現，先忙咱小試牛刀一下。

一幅堆疊的面積圖就輕松繪制成功，但我們發現，堆疊的順序與圖例的順序恰好相反，不用急，只需要加一句命令即可：

如果需要為每一塊面積圖的頂部加上一條直線，可以通過如下兩種方式：

其中，colour設置面積圖邊框的顏色；size設置邊框線的粗細；alpha設置面積圖和邊框線的透明度。

該方法是通過添加堆疊線條（必須設置geom_line()中position參數為‘stack’，否則只是添加了兩條線，無法與面積圖的頂部重合）。這兩幅圖的區別在於第二種方式沒有繪制面積圖左右邊框和底邊框。在實際應用中，建議不要在面積圖中繪制邊框線，因為邊框的存在可能產生誤導。

在面積圖中，也可以方便快捷的繪制出百分比堆積面積圖，具體操作如下：

但通過這種方式（設置面積圖的positon='fill'）存在一點點小缺陷，即無法繪制出百分比堆積面積圖頂部的線條，該如何實現呢？這里只需要對原始數據集做一步匯總工作，讓后按部就班的繪制面積圖即可。

ggplot(data = df_summarize, mapping = aes(x = year, y = value2, fill = type)) + geom_area(alpha = 0.6) + geom_line(colour = 'black', size = 1, position = 'stack', alpha = 0.6) + guides(fill = guide_legend(reverse = TRUE))

Chap5. 散點圖

概述

散點圖

散點圖通常用來刻畫兩個連續型變量之間的關系，數據集中的每一條觀測都由散點圖中的一個點來表示。在散點圖中也可以加入一些直線或曲線，用來表示基於統計模型的擬合。當數據集記錄很多時，散點圖可能會彼此重疊，這種情況往往需要一些預處理操作。

1 基本散點圖

散點圖可以用來描述兩個連續變量之間的關系,一般在做數據探索分析時會使用到,通過散點圖發現變量之間的相關性強度、是否線性關系等。

可以使用shape和size分別指定點型和點的大小，如果點型包括填充和描邊的話，可用fill和color分別指定填充色和描邊色。

2 基於類別型變量分組

可將分組變量(因子或字符變量)賦值給顏色或形狀屬性,實現分組散點圖的繪制

可以將因子和字符串等類別型變量映射到散點的顏色或形狀。

set.seed(112)
x <- rnorm(100,mean = 2,sd = 3)
y <- 1.5+2*x+rnorm(100)
z <- sample(c(0,1),size = 100,replace = TRUE)
df <- data.frame(x = x,y = y,z = z)
# 將數值型變量轉換為因子型變量
df$z <- factor(df$z)

#分組變量賦值給顏色屬性
ggplot(df,aes(x = x,y = y,colour = z))+
geom_point(size = 3)

#分組變量賦值給形狀屬性
ggplot(df,aes(x = x,y = y,shape = z))+
geom_point(size = 3)

# 分組變量同時賦給顏色屬性和形狀屬性
ggplot(df,aes(x = x,y = y,shape = z,colour = z))+
geom_point(size = 3)+
scale_color_brewer(palette = "Accent")+
scale_shape_manual(values = c(2,16))

注意點的形狀,21-25之間的點的形狀,既可以賦值邊框顏色,又可以賦值填充色。

圖例上,顏色越深而對應的值越小,如何將值的大小與顏色的深淺保持一致？只需要人為的設置色階,從低到高設置不同的顏色即可

3 基於連續型變量映射

當然，還可以將連續型變量映射到散點的顏色或大小等存在漸變的屬性上，從而呈現三個連續型變量之間的關系。其中人眼對於x軸和y軸所對應變量的變化更為敏感，而對顏色和大小的變化則不那么敏感。

同時映射類別型變量和連續型變量，並設置散點的面積正比於連續型變量的大小，默認為非線性映射。

# 將連續型變量映射給顏色屬性,同時設置雙色梯度
ggplot(df,aes(x = x,y = y,colour = z))+geom_point(size = 3)+scale_colour_gradient(low = "lightblue",high = "darkblue")

# 將連續變量映射給大小屬性
ggplot(df,aes(x = x,y = y,size = z))+ geom_point()

# 將連續型變量賦給顏色屬性或大小屬性,自定義雙色梯度,色階間隔順序由低到高
ggplot(df,aes(x = x,y = y,fill = z))+ geom_point(shape = 21,size = 3)+
scale_fill_gradient(low = "lightblue",high = "darkblue",breaks = c(100,150,200,300,350,400))

# 自定義球大小的間隔
ggplot(df,aes(x = x,y = y,size = z))+geom_point()+
scale_size_continuous(breaks = c(100,150,200,250,300,350,400),guide = guide_legend())
# scale_size(breaks = c(100,150,200,250,300,350,400))結果一樣

# 將連續變量值的大小與球的大小成比例
ggplot(df,aes(x = x,y = y,size = z))+geom_point()+scale_size_area(max_size = 10)
# scale_size_area()可以確保數值0映射為0,max_size保證映射最大的點的大小

當x軸和y軸對應一個或兩個離散型變量時，例如雖然對應數值，但是數值僅取某些離散點，可以給散點圖添加擾動，使得散點分離開來。

以下使用Logistic回歸擬合一個二分類的樣本，可以看出V1和classn具有二分類關系，Logistic回歸曲線也說明了這一點。

如果已經將類別型變量映射到散點的顏色或形狀，則在添加擬合線時會分別為每一組添加一條擬合線。可以看到身高隨着年齡增長而增加，到一定年齡后停止增長，且男性比女性平均身高更高。

散點圖矩陣

散點圖矩陣用於展示多幅散點圖，pairs()函數可以創建基礎的散點圖矩陣，以下代碼包含mpg、disp、drat和wt中任意兩者的散點圖。

car包的scatterplotMatrix()函數也可以生成散點圖矩陣，並支持以下操作：

再來一個scatterplotMatrix()函數的使用例子，主對角線的核密度曲線改為了直方圖，並且直方圖以汽車氣缸數為條件繪制。

gclus包中的cpairs()函數提供了一個有趣的散點圖矩陣變種，支持重排矩陣中變量的位置，讓相關性更高的變量更靠近主對角線，還可以對各單元格進行顏色編碼來展示變量間的相關性大小。

可以發現相關性最高（0.89）的是車重（wt）和排量（disp），以及車重（wt）和每加侖英里數（mpg）。相關性最低（0.68）的是每加侖英里數（mpg）和后軸比（drat）。以下代碼根據相關性大小，對散點圖矩陣中的這些變量重新排序並着色。

高密度散點圖

當散點圖中點數量過大時，數據點的重疊將會導致繪圖效果顯著變差。對於這種情況，可以使用封箱、顏色和透明度等來指定圖中任意點上重疊點的數目。

smoothScatter()函數可利用核密度估計生成用顏色密度來表示點分布的散點圖。

hexbin包中的hexbin()函數將二元變量的封箱放到六邊形單元格中。

三維散點圖

如果想一次性對三個定量變量的交互進行可視化，那么可以使用scatterplot3d中的scatterplot3d()函數進行繪制。

scatterplot3d()函數提供了許多選項，包括設置圖形符號、軸、顏色、線條、網格線、突出顯示和角度等功能。例如以下代碼生成一幅突出顯示效果的三維散點圖，增強了縱深感並添加了連接點與水平面的垂直線。

使用rgl包中的plot3d()函數可創建交互式的三維散點圖，通過鼠標即可對圖形進行旋轉。

7 添加文本標注

使用geom_text()為散點圖添加標注，vjust為0時表示豎直方向上基線對齊，為1時表示頂部對齊，hjust為0時表示水平方向上左對齊，為1時表示右對齊，以下設置對齊方式並適當添加偏移，以改善顯示效果。

8 使用氣泡圖繪制二維統計

以下使用散點圖繪制氣泡圖，對兩個類別型變量進行統計。

value1 <- rep(c('高價值','中價值','低價值'), each = 3)
value2 <- rep(c('高價值','中價值','低價值'), times = 3)
nums <- c(500,287,123,156,720,390,80,468,1200)
df <- data.frame(value1 = value1, value2 = value2, nums = nums)
df$value1 <- factor(df$value1, levels = c('高價值','中價值','低價值'), order = TRUE)
df$value2 <- factor(df$value2, levels = c('低價值','中價值','高價值'), order = TRUE)
ggplot(df,aes(x = value1, y = value2, size = nums)) +geom_point(colour = 'steelblue') +
scale_size_area(max_size = 30, guide = FALSE) +geom_text(aes(label = nums), vjust = 0, colour = 'black', size = 5) + theme(text = element_text(family = 'SimSun'))

繪制氣泡圖也可使用函數symbols(x,y,circle=r).當中x、y是坐標軸，r是每一個點的半徑。
x<-rnorm(6)
y<-rnorm(6)
r<-abs(rnorm(6))
symbols(x,y,circle = r, bg=rainbow(6))

###############氣泡圖例子2
attach(mtcars) # 激活或掛接數據集
#attach( )函數是將數據框添加到R的搜索路徑中 # mtcars為R語言內置數據集
r<-sqrt(disp/pi)
symbols(wt,mpg,circle=r, inches=0.3, bg="lightblue")
text(wt,mpg,row.names(mtcars), cex=0.5) #給每一個氣泡加上文字。

Chap6. 描述數據分布

直方圖

我們經常想觀察一批數據的分布形態，直方圖、密度圖、箱線圖、小提琴圖和點圖等都是很好的實現形式。在此，我們簡略介紹直方圖、密度圖和箱線圖，這種三種圖形對我們來說更為常用。

直方圖

很多人沒搞清楚條形圖和直方圖之間的區別。條形圖主要用於展示分類數據，即名義數據，各組分開而立。而直方圖多用於展示數值型數據，各組相依。

單組直方圖

最基本的語句就是在ggplot語句后再加geom_histogram()即可。

分組直方圖

分組直方圖做法與其他圖形一樣，我們用到facet_grid(var ~ .)，該方法是以var變量進行分類，做多個圖形，非一個圖形中做多個直方圖。如果變量為數字，應當因子化。

核密度曲線

分組密度曲線

頻數多邊形

頻數多邊形描述了數據本身的信息，而核密度曲線只是一個估計，需要認為輸入帶寬參數。

箱線圖

library(MASS) #取binwidth數據
ggplot(birthwt, aes(x=bwt))+geom_histogram(fill="white", colour="black")+facet_grid(smoke ~ .)

小提琴圖

p = ggplot(data=mpg, mapping=aes(x=class, y=hwy, fill=class))
p + geom_boxplot() + geom_jitter(shape=21)
p + geom_violin(alpha=0.5, width=0.9) + geom_jitter(shape=21)

Wilkinson點圖

顏色圖和等高圖
par(mar = rep(1, 4))
x = 10 * (1:nrow(volcano))
y = 10 * (1:ncol(volcano))
image(x, y, volcano, col = terrain.colors(100), axes = FALSE)
contour(x, y, volcano, levels = seq(90, 200, by = 5),add = TRUE, col = "peru")
box()

dt = data.frame(A = c(2, 7, 4, 10, 1,5), B = c('B','A','C','D','E','B'))
windowsFonts(myFont = windowsFont("楷體")) ## 綁定字體
p = ggplot(dt, aes(x = B, y = A, fill = B)) + geom_bar(stat = "identity", alpha = 0.7) + coord_polar()
p

Chap7. 注解

文本注解

數學表達式

添加直線

添加線段和箭頭

添加矩形陰影

添加誤差線

向獨立分面添加注解

1 添加文本注解

使用annotate()生成一條文本注解，通過x和y指定文本位置，可以是具體數值或者Inf和-Inf，表示圖形的邊緣，使用hjust和vjust進行水平方向和豎直方向上的微調，使用family、color、size分別指定字體、顏色、大小。

2 添加數學表達式

還是使用annotate()，不過需要制定parse為TRUE，表示對文本進行公式解析。

更多和公式語法有關的內容可參考?plotmath，更多數學表達式的圖示可參考?demo(plotmath)。

3 添加直線

使用geom_hline()、geom_vline()、geom_abline()分別繪制水平線、豎直線和有角度的線。如果x軸或y軸為類別型變量，則第一個水平為數值1，第二個水平為數值2，依此類推。

4 添加線段和箭頭

在annotate()中指定segment可以添加線段，還可以為線段添加箭頭，箭頭默認角度angle為30度，默認長度length為0.2英寸，使用x、xend、y、yend指定線段的起始位置。如果x軸或y軸為類別型變量，則相應地第一個水平使用數值1，第二個水平使用數值2，依次類推。

5 添加矩形陰影

在annotate()中指定rect可以添加矩形，其實只要傳遞了合適的參數，任意幾何對象都可以配合annotate()使用。

6 向獨立分面添加注解

使用分面變量生成一個新的數據框，並設定每個分面要繪制的值，然后配合新數據框使用geom_text()。

Chap8. 坐標軸

交換x軸和y軸

坐標軸的值域

反轉一條連續型坐標軸

修改類別型坐標軸上項目的順序

設置x軸和y軸的縮放比例

默認情況下，ggplot2使兩軸的總長寬比例為1：1，從而形成正方形的繪圖區域，而本節中所提到的比例為：坐標軸單位長度表示的數值范圍

設置刻度線的位置

離散型變量的坐標軸：設置limits以重排序或移除項目，而設置breaks來控制哪些項目擁有標簽。

移除刻度線和標簽

修改刻度標簽的文本

package:scales自帶了一些內置的格式化函數，比如comma(),dollar(),percent(),scientific()

修改刻度標簽的外觀

修改坐標軸標簽的文本

移除坐標軸標簽

對數坐標軸

對數坐標軸添加刻度

坐標軸上使用日期

Chap9.控制圖形的整體外觀

設置圖形標題

修改文本外觀

文本項目分為兩類：主題元素和文本幾何對象。主題元素包括圖形中的所有非數據元素：如標題、圖例和坐標軸。文本幾何對象則屬於圖形本身的一部分。

使用主題

要修改一套主題，配合相應的element_xx對象添加theme()函數即可。element_xx對象包括element_line、element_rect和element_text。

創建自定義主題

隱藏網格線

Chap10. 圖例

像x軸和y軸一樣，圖例也是一種引導元素：它可以向人們展示如何從視覺上的圖形屬性映射回數據本身。

Chap11. 分面

數據可視化中最實用的技術之一就是將分組數據並列呈現，這樣使得組間的比較變得輕而易舉。

即在一個頁面上自動擺放多幅圖形, 這一過程先將數據划分為多個子集, 然后將每個子集依次繪制到頁面的不同面板中。ggplot2提供兩種分面類型：網格型(facet_grid)和封面型(facet_wrap)。網格分面生成的是一個2維的面板網格, 面板的行與列通過變量來定義, 本質是2維的; 封裝分面則先生成一個1維的面板條塊, 然后再分裝到2維中, 本質是1維的。
在很多情況下, 我們可能需要繪制有兩個y軸的坐標系, 而在ggplot2中, 這種做法特別不提倡(stackover的討論), 可解決的方法要么是把變量歸一化, 要么便是采用分面方法。

p <- ggplot(mtcars, aes(mpg, wt, colour = cyl)) +geom_point() #geom_point()為通過”+”以圖層的方式加入點的幾何對象
p <- ggplot(mtcars, aes(mpg, wt)) + geom_point()
p + facet_grid(. ~ cyl) #以cyl為分類變量
p + facet_wrap( ~ cyl, nrow = 3) #wrap與grid的區別
p + facet_grid(cyl ~ .) #以cyl為分類變量
p + facet_wrap( ~ cyl, ncol = 3) #wrap與grid的區別
p + facet_grid(vs ~ am) #以vs和am為分類變量
p + facet_wrap(vs ~ am, ncol = 2) #wrap與grid 的區別

離散型變量調色板

對類別型數據中的點而言，最好選擇調色板Set1和Dark2；對面積而言，Set2、Pastel1、Pastel2和Accent都是不錯的選擇方案。

RGB顏色

RGB顏色是由六個數字組成(十六進制數)，形式如“#RRGGBB”。在十六進制中，數字先從0到9，然后緊接着是A到F。每一個顏色都由兩個數字表示，范圍從00到FF。比如顏色“#FF0099”中，255表示紅色，0表示綠色，153表示藍色，整體表示品紅色。十六進制數中每個顏色通道常常重復同樣的數字，因子這樣更容易閱讀並且第二個數字的精確值對外觀的影響並不是很明顯。

RGB經驗法則

色盲友好式調色板

連續型變量調色板

Chap15. 其他圖形

相關矩陣圖

繪制函數曲線

繪制熱圖

使用geom_tile()或者geom_raster()，並將一個連續變量映射到fill上。

三維散點圖

繪制譜系圖

繪制QQ圖

繪制馬賽克圖

繪制餅圖

繪制地圖

Chap14. 保存圖形

輸出為PDF矢量文件

輸出為SVG矢量文件

輸出為WMF矢量文件

輸出為點陣(PNG/TIFF)文件

在圖中顯示中文

一頁多圖

視圖窗口(viewport):顯示設備的一個矩陣子區域。grid.layout()設置了一個任意高和寬的視圖窗口布局。

默認的grid.layout()中，每個單元格的大小都相同，可以設置widths和heights參數使得它們具有不同的大小。

時間序列

數據下載

 
              
               
                 
                 
                   #用excel導入數據, 格式為csv 
                  
 
                   ori.data < 
                   -  
                   read.csv( 
                   "lesson8.csv" 
                   , header  
                   =  
                   F) 
                  
 
                   #以矩陣的方式讀入數據, 按行排列, 每三列換一行 
                  
 
                   data < 
                   -  
                   matrix(as.matrix(ori.data), nrow(ori.data)  
                   /  
                   3 
                   ,  
                   3 
                   , byrow  
                   =  
                   TRUE) 
                  
 
                   #關閉區域特定的時間編碼方式 
                  
 
                   Sys.setlocale( 
                   "LC_TIME" 
                   ,  
                   "C" 
                   ) 
                  
 
                   #用as.POSIXlt()讀入字符串數據並轉化為date數據, 賦值給date, 或as.Date() 
                  
 
                   date < 
                   -  
                   as.POSIXlt(data[,  
                   1 
                   ], tz  
                   =  
                   " 
                   ", " 
                   % 
                   a  
                   % 
                   b  
                   % 
                   d  
                   % 
                   H: 
                   % 
                   M: 
                   % 
                   S HKT  
                   % 
                   Y") 
                  
 
                   #對ip和pv所在的列轉化為數值型 
                  
 
                   IP < 
                   -  
                   as.numeric(data[,  
                   2 
                   ]) 
                  
 
                   PV < 
                   -  
                   as.numeric(data[,  
                   3 
                   ]) 
                  
 
                   head(data) 
                  
 
                   #恢復區域特地的時間編碼方式 
                  
 
                   Sys.setlocale( 
                   "LC_TIME" 
                   , "") 
                  
 
                   #用ggplot2繪圖 
                  
 
                   require(ggplot2) 
                  
 
                   #用reshape包中的melt函數分解數據 
                  
 
                   require(reshape2) 
                  
 
                   p.data < 
                   -  
                   data.frame(date, IP, PV) 
                  
 
                   meltdata < 
                   -  
                   melt(p.data,  
                   id  
                   =  
                   (c( 
                   "date" 
                   ))) 
                  
 
                   #用對IP和PV做分頁處理, y軸刻度自由變化 
                  
 
                   graphic < 
                   -  
                   ggplot(data  
                   =  
                   meltdata, aes(x  
                   =  
                   date, y  
                   =  
                   value, color  
                   =  
                   variable))  
                   +  
                   geom_line()  
                   +  
                   geom_point() 
                  
 
                   graphic < 
                   -  
                   graphic  
                   +  
                   facet_grid(variable ~ ., scales  
                   =  
                   "free_y" 
                   ) 
                  
 
                   #美化, 添加標題, 坐標, 更改圖例 
                  
 
                   graphic< 
                   -  
                   graphic  
                   +  
                   labs(x  
                   =  
                   "日期" 
                   , y  
                   =  
                   "人次" 
                   , title  
                   =  
                   "某網站7月至10月IP/PV統計" 
                   )  
                   + 
                  
 
                      
                   theme(plot.title  
                   =  
                   element_text(size  
                   =  
                   20 
                   , face  
                   =  
                   "bold" 
                   ))  
                   + 
                  
 
                      
                   scale_colour_discrete(name  
                   =  
                   " 
                   ",labels = c(" 
                   IP 
                   "," 
                   PV"))  
                   + 
                  
 
                      
                   theme(strip.text.y  
                   =  
                   element_text(angle  
                   =  
                   0 
                   )) 
                  
 
               
 
              
            

地圖

 
              
               
                 
                 
                   require(maps) 
                  
 
                   require(ggplot2) 
                  
 
                   #用直方圖看下pop整體的分布 
                  
 
                   #可以發現數據分布較變化較大, 所以對pop做log轉化 
                  
 
                   qplot(pop, data  
                   =  
                   us.cities, binwidth  
                   =  
                   0000 
                   , geom  
                   =  
                   "histogram" 
                   ) 
                  
 
                   qplot(log(pop), data  
                   =  
                   us.cities, binwidth  
                   =  
                   0.03 
                   , geom  
                   =  
                   "histogram" 
                   ) 
                  

                      
                  
 
                   #繪制背景地圖 
                  
 
                   USA.POP < 
                   -  
                   ggplot(us.cities, aes(x  
                   =  
                   long 
                   , y  
                   =  
                   lat))  
                   +  
                   xlim( 
                   - 
                   130 
                   ,  
                   - 
                   65 
                   )  
                   +  
                   borders( 
                   "state" 
                   , size 
                   = 
                   0.5 
                   ) 
                   + 
                  
 
                      
                   geom_point(aes(size  
                   =  
                   log(pop), color  
                   =  
                   factor(capital), alpha  
                   =  
                   1 
                   / 
                   50 
                   )) 
                   + 
                  
 
                      
                   #對size標度的調整參考http://docs.ggplot2.org/0.9.3.1/scale_size.html 
                  
 
                      
                   scale_size( 
                   range 
                   = 
                   c( 
                   0 
                   ,  
                   7 
                   ), name  
                   =  
                   "log(City population)" 
                   ) 
                   + 
                  
 
                      
                   #對離散型顏色變量的標度調整參考http://docs.ggplot2.org/0.9.3.1/scale_manual.html 
                  
 
                      
                   #對連續型顏色標量的標度調整參考http://docs.ggplot2.org/0.9.3.1/scale_brewer.html 
                  
 
                      
                   #和http://docs.ggplot2.org/0.9.3.1/scale_gradient2.html 
                  
 
                      
                   scale_color_manual(values  
                   =  
                   c( 
                   "black" 
                   ,  
                   "red" 
                   ), labels  
                   =  
                   c( 
                   "state capital" 
                   ,  
                   "city" 
                   )) 
                   + 
                  
 
                      
                   #調整圖例 
                  
 
                      
                   guides(color  
                   =  
                   guide_legend(title 
                   = 
                   NULL))  
                   +  
                   scale_alpha(guide  
                   =  
                   FALSE) 
                   + 
                  
 
                      
                   #繪制標題和坐標軸 
                  
 
                      
                   labs(x  
                   =  
                   "longtitude" 
                   , y  
                   =  
                   "latitude" 
                   , title  
                   =  
                   "City Population in the United States" 
                   ) 
                   + 
                  
 
                      
                   theme(plot.title  
                   =  
                   element_text(size 
                   = 
                   20 
                   )) 
                  
 
                       
                  
 
                   #輸出圖像 並用cairo包進行抗鋸齒處理 
                  
 
                   ggsave(USA.POP,  
                   file  
                   =  
                   "USA_POP.png" 
                   ,  
                   type  
                   =  
                   "cairo" 
                   , width  
                   =  
                   10 
                   , height  
                   =  
                   6.75 
                   ) 
                  
 
               
 
              
            

當然, 這只是簡單的地圖繪制方法,統計之都上也有很多大牛來用R繪制各種各樣精美的地圖(1, 2)。

劑量-效應曲線

R中的drc包很容易對各種劑量-效應曲線進行繪圖, 此處采用較為常用的log-logistic四參數方程擬合了劑量-效應曲線。

數據下載

 
              
               
                 
                 
                   ori.data < 
                   -  
                   read.csv( 
                   "D-R curve.csv" 
                   ) 
                  
 
                   require(drc) 
                  
 
                   require(reshape2) 
                  
 
                   #把數據融合 
                  
 
                   melt.data < 
                   -  
                   melt(ori.data,  
                   id  
                   =  
                   c( 
                   "dose" 
                   ), value.name  
                   =  
                   "response" 
                   )[,  
                   - 
                   2 
                   ] 
                  
 
                   #用drc包中的log-logistic四參數方程進行擬合建模 
                  
 
                   model < 
                   -  
                   drm(response ~ dose, data  
                   =  
                   melt.data, fct  
                   =  
                   LL. 
                   4 
                   (names  
                   =  
                   c( 
                   "Slope" 
                   ,  
                   "Lower Limit" 
                   ,  
                   "Upper Limit" 
                   ,  
                   "EC50" 
                   ))) 
                  
 
                   #確定x軸范圍並構建數據集 
                  
 
                   min  
                   < 
                   -  
                   range 
                   (ori.data$dose)[ 
                   1 
                   ] 
                  
 
                   max  
                   < 
                   -  
                   range 
                   (ori.data$dose)[ 
                   2 
                   ] 
                  
 
                   line.data < 
                   -  
                   data.frame(d.predict  
                   =  
                   seq( 
                   min 
                   ,  
                   max 
                   , length.out  
                   =  
                   1000 
                   )) 
                  
 
                   #用模型預測數據構建數據集 
                  
 
                   line.data$p.predict < 
                   -  
                   predict(model, newdata  
                   =  
                   line.data) 
                  
 
                   #構建繪圖數據, 能夠計算誤差棒 
                  
 
                   require(plyr) 
                  
 
                   p.data < 
                   -  
                   ddply(melt.data, .(dose), colwise(mean)) 
                  
 
                   p.data$sd < 
                   -  
                   ddply(melt.data, .(dose), colwise(sd))[, 
                   2 
                   ] 
                  

                      
                  
 
                   require(ggplot2) 
                  
 
                   p < 
                   -  
                   ggplot()  
                   + 
                  
 
                      
                   geom_errorbar(data  
                   =  
                   p.data, width  
                   =  
                   0.1 
                   , size  
                   =  
                   1 
                   , 
                  
 
                                    
                   aes(ymax  
                   =  
                   response  
                   +  
                   sd, ymin  
                   =  
                   response  
                   -  
                   sd, x  
                   =  
                   dose))  
                   + 
                  
 
                      
                   geom_point(data  
                   =  
                   p.data, aes(x  
                   =  
                   dose, y  
                   =  
                   response),  
                  
 
                                 
                   color  
                   =  
                   "red" 
                   , alpha  
                   =  
                   0.5 
                   , size  
                   =  
                   5 
                   )  
                   + 
                  
 
                      
                   geom_line(data  
                   =  
                   line.data, aes(x  
                   =  
                   d.predict, y  
                   =  
                   p.predict),  
                  
 
                                  
                   size  
                   =  
                   1 
                   , color  
                   =  
                   "blue" 
                   )  
                   + 
                  
 
                      
                   #改變坐標軸間隔 
                  
 
                      
                   scale_x_log10(name  
                   =  
                   "Dose" 
                   , 
                  
 
                                    
                   breaks 
                   = 
                   c( 
                   0.05 
                   ,  
                   0.1 
                   ,  
                   0.5 
                   ,  
                   1 
                   ,  
                   5 
                   ,  
                   10 
                   ,  
                   50 
                   ,  
                   100 
                   ))  
                   + 
                  
 
                      
                   scale_y_continuous(name  
                   =  
                   "Response" 
                   )  
                   + 
                  
 
                      
                   theme_bw() 
                  
 
                   #查看擬合模型參數 
                  
 
                   summary(model) 
                  
 
               
 
              
            

幾何對象函數	描述
geom_abline	線圖，由斜率和截距指定
geom_area	面積圖（即連續的條形圖）
geom_bar	條形圖
geom_bin2d	二維封箱的熱圖
geom_blank	空的幾何對象，什么也不畫
geom_boxplot	箱線圖
geom_contour	等高線圖
geom_crossbar	crossbar圖（類似於箱線圖，但沒有觸須和極值點）
geom_density	密度圖
geom_density2d	二維密度圖
geom_errorbar	誤差線（通常添加到其他圖形上，比如柱狀圖、點圖、線圖等）
geom_errorbarh	水平誤差線
geom_freqpoly	頻率多邊形（類似於直方圖）
geom_hex	六邊形圖（通常用於六邊形封箱）
geom_histogram	直方圖
geom_hline	水平線
geom_jitter	點、自動添加了擾動
geom_line	線
geom_linerange	區間，用豎直線來表示
geom_path	幾何路徑，由一組點按順序連接
geom_point	點
geom_pointrange	一條垂直線，線的中間有一個點（與Crossbar圖和箱線圖相關，可以用來表示線的范圍）
geom_polygon	多邊形
geom_quantile	一組分位數線（來自分位數回歸）
geom_rect	二維的長方形
geom_ribbon	彩虹圖（在連續的x值上表示y的范圍，例如Tufte著名的拿破侖遠征圖）
geom_rug	觸須
geom_segment	線段
geom_smooth	平滑的條件均值
geom_step	階梯圖
geom_text	文本
geom_tile	瓦片（即一個個的小長方形或多邊形）
geom_vline	豎直線

統計變換函數	描述
stat_abline	添加線條，用斜率和截距表示
stat_bin	分割數據，然后繪制直方圖
stat_bin2d	二維密度圖，用矩陣表示
stat_binhex	二維密度圖，用六邊形表示
stat_boxplot	繪制帶觸須的箱線圖
stat_contour	繪制三維數據的等高線圖
stat_density	繪制密度圖
stat_density2d	繪制二維密度圖
stat_function	添加函數曲線
stat_hline	添加水平線
stat_identity	繪制原始數據，不進行統計變換
stat_qq	繪制Q-Q圖
stat_quantile	連續的分位線
stat_smooth	添加平滑曲線
stat_spoke	繪制有方向的數據點（由x和y指定位置，angle指定角度）
stat_sum	繪制不重復的取值之和（通常用在三點圖上）
stat_summary	繪制匯總數據
stat_unique	繪制不同的數值，去掉重復的數值
stat_vline	繪制豎直線

標度函數	描述
scale_alpha	alpha通道值（灰度）
scale_brewer	調色板，來自colorbrewer.org網站展示的顏色標度
scale_continuous	連續標度
scale_data	日期
scale_datetime	日期和時間
scale_discrete	離散值
scale_gradient	兩種顏色構建的漸變色
scale_gradient2	3中顏色構建的漸變色
scale_gradientn	n種顏色構建的漸變色
scale_grey	灰度顏色
scale_hue	均勻色調
scale_identity	直接使用指定的取值，不進行標度轉換
scale_linetype	用線條模式來展示不同
scale_manual	手動指定離散標度
scale_shape	用不同的形狀來展示不同的數值
scale_size	用不同大小的對象來展示不同的數值

坐標函數	描述
coord_cartesian	笛卡兒坐標
coord_equal	等尺度坐標（斜率為1）
coord_flip	翻轉笛卡兒坐標
coord_map	地圖投影
coord_polar	極坐標投影
coord_trans	變換笛卡兒坐標

定位函數	描述
position_dodge	並列
position_fill	填充
position_identity	不對位置進行處理
position_jitter	擾動處理
position_stack	堆疊處理

參數	描述	默認值
data	要繪圖的數據框
mapping	一系列圖形屬性的映射	aes()
environment	圖形屬性參數所在的環境	globalenv()
...

分面函數	描述
facet_grid	將分面放置在二維網格中
facet_wrap	將一維的分面按二維排列

R語言 ggplot2包的學習

基本語法：

幾何對象：

統計變換

標度函數

坐標系

分面

位置

Chap1. R 基礎

Chap2. 快速探索數據（略）

條形圖

直方圖

箱線圖

繪制函數圖像

Chap3. 條形圖

參數

條形圖

調整條形寬度和條形距離

Chap4. 折線圖

概述

簡單折線圖

Chap5. 散點圖

概述

散點圖

1 基本散點圖

2 基於類別型變量分組

3 基於連續型變量映射

處理散點重合的基本思路包括：

散點圖矩陣

高密度散點圖

三維散點圖

7 添加文本標注

8 使用氣泡圖繪制二維統計

Chap6. 描述數據分布

直方圖

直方圖

單組直方圖

分組直方圖

核密度曲線

分組密度曲線

頻數多邊形

箱線圖

小提琴圖

Wilkinson點圖

Chap7. 注解

文本注解

數學表達式

添加直線

添加線段和箭頭

添加矩形陰影

添加誤差線

向獨立分面添加注解

1 添加文本注解

2 添加數學表達式

3 添加直線

4 添加線段和箭頭

5 添加矩形陰影

6 向獨立分面添加注解

Chap8. 坐標軸

交換x軸和y軸

坐標軸的值域

反轉一條連續型坐標軸

修改類別型坐標軸上項目的順序

設置x軸和y軸的縮放比例

設置刻度線的位置

移除刻度線和標簽

修改刻度標簽的文本

修改刻度標簽的外觀

修改坐標軸標簽的文本

移除坐標軸標簽

對數坐標軸

對數坐標軸添加刻度

坐標軸上使用日期

4 修改類別型坐標軸上項目的順序

7 修改標題和坐標軸標簽文本

9 繪制極坐標

Chap9.控制圖形的整體外觀

設置圖形標題

修改文本外觀