在日常统计时,箱形图是一个常用的,同时又强有力的图表,本文记录了一些学习经验.
箱形图学习 Box-Plot
主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。
关于异常值:
在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。四分位距IQR=Q3-Q1。
下面有5组数据和对应的箱型图:
test1 | test2 | test3 | test4 | test5 |
---|---|---|---|---|
1 | 1 | 1 | 1 | 1 |
2 | 1 | 5 | 1 | 1 |
3 | 3 | 5 | 2 | 1 |
4 | 3 | 5 | 2 | 2 |
5 | 5 | 5 | 3 | 2 |
6 | 5 | 6 | 8 | 2 |
7 | 7 | 6 | 8 | 3 |
8 | 7 | 6 | 9 | 5 |
9 | 9 | 6 | 9 | 9 |
10 | 9 | 10 | 10 | 10 |
说明:
- Test1: 均匀地分布。
- Test2: 和test1比较起来,虽然有数字的跳跃,但还是均匀地分布。
- Test3: 数据中的1和10属于异常值,在箱体的外面。
- Test4: 根据上下4分位来看,接近两端的数值比较多,但平均值和中位数在中间。偏差比较大。
- Test5: 下4分位基本接近最小值,上4分位离最大值非常远,表示有大量小的数值在底端。有大数据,但不多(只有很少量接近最大值或者只有最大值)。另外,从平均值也可以看出来(大量小的数值拉低了平均值)。
偏态和尾重(待补充)
数据异常值的实用意义(待补充)