数据分析工具 - 箱线图 (Box-plot)
- 什么是箱线图(或盒须图), Box-plot (or Whisker-plot)
箱线图是一种直观简洁的方式去呈现一组数据的分布. 因其形状如箱子而得名. 箱线图广泛用于各个数据分析领域, 其中包括品质管理. 箱线图是由美国著名统计学家John Tukey发明. 它能非常简单明了地显示一组数据中5个重要数值, 最大值 (Maximum Value), 最小值 (Minimum Value), 中位数 (Median Value), 下四分位数 (First Quartile), 上四分位数 (Third Quartile). 箱线图还能发现一组数据中的存在的异常值 (Outliers).
箱线图不需要假定数据服从特定的分布形式, 真实直观地反应出数据的原本面貌. 另一方面, 箱线图用四分位数为基础去区分数据中的异常值. 所以, 箱线图上呈现出的异常值也会比较客观.
- 箱线图的定义和绘制
在一组数据中先找出以下重要数值会帮助我们来绘制箱线图:

- 最小值(Minimum Value, Min)
- 下四分位数(First Quartile, Q1)
- 中位数(Median Value, Med)
- 上四分位数(Third Quartile, Q3)
- 最大值(Maximum Value, Max)
- 四分位间距(Interquartile Range, IQR)
- 内限 (Inner Fence)
- 外限 (Outer Fence)
箱线图绘制步骤: 

第二步: 画一个矩形盒,两端边的位置分别为上下四分位数(Q1 和Q3); 在矩形盒内部中位数(Med) 位置画一条线段为中位线。
第三步: 在Q3+1.5 x IQR(四分位间距)和Q1-1.5 x IQR处画两条线段, 这两条线段为异常值截断点, 称其内限(Inner Fence); 在Q3+3 x IQR和Q1-3 x IQR处画两条线段,称其外限(Outer fence).
Remark: 处于内限以外位置的点表示的数据都是异常值, 数据在内限与外限之间的数值为温和异常值 (mild outliers), 在外限以外的数值为极端异常值 (extreme outliers).
第四步: 从矩形盒两端边向外各画一条线段直到这组数据的最大值和最小值.Remark: 处于内限以外位置的点表示的数据都是异常值, 数据在内限与外限之间的数值为温和异常值 (mild outliers), 在外限以外的数值为极端异常值 (extreme outliers).
Remark: 需要检查数据中的最大值或者最小值是否是异常值.
第五步: 用”o”标出温和异常值,用”• 或*”标出极端的异常值.
一般统计软体都可以画箱线图. E.g. Minitab, JMP.
Remark: 统计软体一般不会标注内限和外限, Minitab不会分温和异常值和极端异常值
Excel 画箱线图有点繁琐, 具体请参考一下链接:
http://www.docin.com/p-572655761.html (Chinese)
- 箱线图的应用和范例
利用箱线图可以简便快捷地理解数据的分布偏态, 观察出异常值, 虽然它不能给出分布偏态和尾重程度的精确数字. 可是我们通过其图示已经可以粗略地理解这组数据给我们的一些信息.
在一组数据中我们能发现哪几个数值与整个数组表现不一,这些异常数据点放在同类群体中处于什么位置. 在每组数据中, 我们可以从观察各方盒 (四分位间距大小) 和线段的长短便可以理解每组数据分布的偏态是集中还是分散. 箱线图对于数据数量较大的时候不能很精确地反应出分布偏态和尾重程度的精确数字, 所以还需要其他统计工具与平均值, 标准差, 偏度 等来帮忙一起描述数据的分布状况 从而更好地认识数据.
范例
假设虚拟的客户组装图纸上的一个重要功能尺寸, 我们用了4种不同的治具组装方案.
需求: 需要选择一款组装治具适合这个机种量产
虚拟的客户图纸尺寸SPEC: 2.00+/-0.05mm
从数据分析上看起来Fixture 1 的尺寸非常稳定而且很集中, 可是有一个异常值. 我们需要重新检验一下测量手法以确保没有人为造成的噪点值 (异常值). 我们需要花一些时间重新微调一下Fixture 1. 试图将Fixture 1 做出来的产品尺寸能够靠近nominal value (2.00mm).
还有Fixture 4 的表现是4个治具中最好的, Fixture 4做出来的尺寸良率最高, 可是我们还是可以调整治具从而缩小IQR 的大小以便提高制程上的Cpk.
Comments