statistics, studynotes,

Study Notes for "Box-plot in stat"

Vincent Cheng Vincent Cheng Follow Jun 13, 2019 · 1 min read
Study Notes for

在日常统计时,箱形图是一个常用的,同时又强有力的图表,本文记录了一些学习经验.

箱形图学习 Box-Plot

主要包含六个数据节点,将一组数据从大到小排列,分别计算出他的上边缘,上四分位数Q3,中位数,下四分位数Q1,下边缘,还有一个异常值。

关于异常值:
在Q3+1.5IQR和Q1-1.5IQR处画两条与中位线一样的线段,这两条线段为异常值截断点,称其为内限;在Q3+3IQR和Q1-3IQR处画两条线段,称其为外限。处于内限以外位置的点表示的数据都是异常值,其中在内限与外限之间的异常值为温和的异常值(mild outliers),在外限以外的为极端的异常值(extreme outliers)。四分位距IQR=Q3-Q1。

下面有5组数据和对应的箱型图:

test1 test2 test3 test4 test5
1 1 1 1 1
2 1 5 1 1
3 3 5 2 1
4 3 5 2 2
5 5 5 3 2
6 5 6 8 2
7 7 6 8 3
8 7 6 9 5
9 9 6 9 9
10 9 10 10 10

说明:

  • Test1: 均匀地分布。
  • Test2: 和test1比较起来,虽然有数字的跳跃,但还是均匀地分布。
  • Test3: 数据中的1和10属于异常值,在箱体的外面。
  • Test4: 根据上下4分位来看,接近两端的数值比较多,但平均值和中位数在中间。偏差比较大。
  • Test5: 下4分位基本接近最小值,上4分位离最大值非常远,表示有大量小的数值在底端。有大数据,但不多(只有很少量接近最大值或者只有最大值)。另外,从平均值也可以看出来(大量小的数值拉低了平均值)。

偏态和尾重(待补充)
数据异常值的实用意义(待补充)

Vincent Cheng
Written by Vincent Cheng Follow
Hey, This is Vincent Cheng(VC).

A typical IT man in NZ with many hobbies, such as music, coffee, cooking, running, cycling, fitness, camp and etc

This is the blog for me typically to record things related with teachnical knowledge and experience.