正在加载
请稍等

菜单

Home 码农菜园 前端视界 R数据可视化-5 散点图
Home 码农菜园 前端视界 R数据可视化-5 散点图

R数据可视化-5 散点图

前端视界 by   阅读量 7,912

散点图通常用来刻画两个连续型变量之间的关系,数据集中的每一条观测都由散点图中的一个点来表示。在散点图中也可以加入一些直线或曲线,用来表示基于统计模型的拟合。当数据集记录很多时,散点图可能会彼此重叠,这种情况往往需要一些预处理操作。

1 基本散点图

使用geom_point()绘制散点图,并分别映射一个变量到x和y。

基本散点图

可以使用shape和size分别指定点型和点的大小,如果点型包括填充和描边的话,可用fill和color分别指定填充色和描边色。

2 基于类别型变量分组

可以将因子和字符串等类别型变量映射到散点的颜色或形状。

分组散点图

3 基于连续型变量映射

当然,还可以将连续型变量映射到散点的颜色或大小等存在渐变的属性上,从而呈现三个连续型变量之间的关系。其中人眼对于x轴和y轴所对应变量的变化更为敏感,而对颜色和大小的变化则不那么敏感。

连续散点图

同时映射类别型变量和连续型变量,并设置散点的面积正比于连续型变量的大小,默认为非线性映射。

多种映射

4 处理散点重合

处理散点重合的基本思路包括:

  • 设置透明度;
  • 使用矩形和六边形等分箱,并且用颜色表示密度。

以下为六边形分箱的结果。

六边形分箱

当x轴和y轴对应一个或两个离散型变量时,例如虽然对应数值,但是数值仅取某些离散点,可以给散点图添加扰动,使得散点分离开来。

5 添加拟合线

使用stat_smooth()或geom_smooth()添加拟合线和置信域。

以下使用Logistic回归拟合一个二分类的样本,可以看出V1和classn具有二分类关系,Logistic回归曲线也说明了这一点。

Logistic回归

如果已经将类别型变量映射到散点的颜色或形状,则在添加拟合线时会分别为每一组添加一条拟合线。可以看到身高随着年龄增长而增加,到一定年龄后停止增长,且男性比女性平均身高更高。

分组拟合

6 添加轴须图

轴须图可以理解为一维的散点图,以下为散点图添加轴须图,并适当减小线宽和添加扰动。

添加轴须图

7 添加文本标注

使用geom_text()为散点图添加标注,vjust为0时表示竖直方向上基线对齐,为1时表示顶部对齐,hjust为0时表示水平方向上左对齐,为1时表示右对齐,以下设置对齐方式并适当添加偏移,以改善显示效果。

添加文本标注

8 使用气泡图绘制二维统计

以下使用散点图绘制气泡图,对两个类别型变量进行统计。

气泡图二维统计

9 散点图矩阵

最后再来个散点图矩阵,使用pairs()进行绘制。

散点图矩阵

03 2016-08

发表评论