正在加载
请稍等

菜单

Home 码农菜园 前端视界 R数据可视化-6 描述数据分布
Home 码农菜园 前端视界 R数据可视化-6 描述数据分布

R数据可视化-6 描述数据分布

前端视界 by   阅读量 6,481

可以使用直方图、密度图、箱线图、小提琴图等来描述数据分布,对原始数据点进行一些汇总计算和分布描述。

1 简单直方图

使用geom_histogram()绘制直方图并映射一个连续变量到参数x,则y轴对应各个区间内的观测数量。默认区间数为30,可以使用binwidth设置区间大小、进而设置区间数量,使用boundary设置原点对应的值。需要注意的是,当boundary和binwidth不同、而且观测数量较少时,最终的直方图可能大不相同,因为各个区间的起始点都发生了变化。

简单直方图1

简单直方图2

2 分组直方图

为了绘制分组直方图,即查看不同分类下的分布情况,可以使用分面,或者将分组类别值映射到fill上。

分组直方图-分面

如果将分组变量映射到fill上,默认绘制堆叠直方图。

分组直方图-堆叠

如果不希望堆叠,需要制定position并适当降低透明度。

分组直方图-无堆叠

3 核密度曲线

使用geom_density()绘制核密度曲线,并映射一个连续变量到x,核密度曲线可以理解为binwidth趋于0时的直方图,此时y轴对应的是分布概览而不是频数,整个核密度曲线以下的面积为1。

核密度曲线和直方图

如果需要绘制分组核密度曲线,同样可以使用分面或映射,由于是曲线,这里的映射可以是fill或color。还可以在使用分面的同时,按以上的例子为不同的分组同时绘制核密度曲线和直方图。

4 频数多边形

使用geom_freqpoly()绘制频数多边形,即用折线连接直方图中各矩形的顶部中点。

频数多边形

5 箱线图

箱线图用于比较多个子分类下的数据分布,“箱”的上下边缘分别表示上四分位数Q3和下四分位数Q1,中间的横线表示中位数。将Q1和Q3的差值计作四分位距IQR,则Q1+1.5IQR至Q3-1.5IQR为内限,Q1+3IQR至Q3-3IQR为外限,内限以外的点即为异常点。如果最大值和最小值位于内限以内,则箱线图的“线”终止于最值。

基本箱线图

可以在箱线图的基础上添加各个子类别的均值。

箱线图添加均值

6 小提琴图

小提琴图在箱线图的基础上,以琴的宽度代表核密度分布,用于比较各个子类别下的核密度分布情况。

小提琴图

可以为小提琴图叠加琴面和琴心,通过箱线图实现。

加强版小提琴图

7 二维密度图

和核密度图不同,二维密度图反映的是两个连续型变量的联合概率分布。以下在散点图上叠加二维密度图。

二维密度图和散点图

或者可以不用散点图,并且将密度曲线的高度映射到等高线的颜色上。

二维密度图-渐变等高线

还可以将密度映射到填充色上。

raster渲染

或者使用另一种处理模式。

tile渲染

15 2016-08

发表评论