直方图简介及详细绘制步骤


先啰嗦两句,在质量管理七大原则中,讲究询证决策,说人话就是“说话办事得有证据”。

质量数据便是可以很好的辅助决策的客观依据。但简单粗糙未经整理的原生态数据显然是没办法完成它这个使命的。所以如何整理质量数据进而清晰准确表达质量信息,可以说是质量人的一项基本生存技能。

而数据整理和表达的一个经典模型,便是直方图。

一、直方图是什么

直方图用一系列宽度相等、高度不等的长方形来表示数据,Karl Pearson其宽度代表组距,高度代表指定组距内的数据数(频数)。

它由英国拥有诸多头衔的天才学者卡尔卡尔·皮尔逊(Karl Pearson,1857—1936,右边这个帅男人,英国著名统计学家、应用数学家、历史学家、哲学家、伦理学家、民俗学家、宗教学家、优生学家、头骨测量专家……名号比龙妈还多……)提出,并由在日本质量学者总结纳入经典QC七大工具中。

直方图可使我们比较容易直接看到数据的分布形状、离散程度和位置状况:

  • 观察数据分布的类型,分析是否服从正态分布,有无异常;
  • 判断数据分布范围是否满足规格范围的要求;
  • 与产品规格界限做比较,判断分布中心是否偏离规格中心,以确定是否需要调整及调整量;

但需要注意的是,虽然在过程能力分析中,我们常常利用直方图整理数据用以分析其分布状态,但有时根据观测数据所绘制的直方图呈非正态的异常分布。这说明过程已出现了异常。在这种状态下,是不能计算过程能力指数的,必须先排查异常原因,予以排查纠正后,再重新收集数据并分析。

为什么不能计算,因为不受控了啊,计算Cp/Cpk的前提是过程处于统计受控状态。🙃

另外注意直方图不等同于柱状图,或者通俗说直方图是特定规则生成的柱状图,不要将二者混为一谈。(小声逼逼,我写这边文章前收集了些资料,很多作者将Excel直接生成的柱状图称作直方图还出教程,害人不浅呐)

 


二、直方图怎么做

1、前置条件

用于绘制直方图的数据量n最好在100以上,如确实达不到,至少也应大于50。

2、数据源

假设对某产品的某质量特性进行测量,共得到如下60个数据。

138 138 138 145 134 130 139 131  134  137 
142 139 137 141 132 135  140 127  136  132 
148 144 137 135 135 135 141  136  137  131 
145 138 133 131 134 134 138  128  133  139 
140 139 140 136 132 136 137  138  121  136 
141 136 130 131 134 131 137 132  129  135 

 

3、确定数据极差R

显而易见,最大值Max=148,最小值Min=121,极差R=148-121=27。

4、确定组数K

组数也就是直方图上柱子的数量。合理的选择分组数对于正确的使用直方图非常重要。

分组过多会使柱子的高度参差波动,直方图将是锯齿型,甚至出现空档,不易显示其分布规律,而且计算量也会增加。分组过少则会掩盖了组内数据可能的异常波动,直方图过于宽平,对分布状态反应不灵敏。

一般在6~20组之间较为合适。具体可以参照以下两种方法,任选其一即可:

  A、中国质量协会注册质量经理手册中,推荐使用n的平方根。本例中,K= 60的平方根 = 7.7 ≈ 8。

  B、日常中也常用斯特奇斯(Sturges)提出的经验公式K=1+lgn/lg2。按该公式,本例 K = 6.9 ≈ 7。

本次采用经验公式,取组数为7。

5、确定组距H

有了组数,还要确定组距也就是柱子的宽度,这样方能计算每根柱子该包含哪些数据。

组距的确定方法为 H=R/K=(148-121)/7=4

注意组距要取测量单位的整数倍,否则生成的直方图会有锯齿形的错误分布。如果计算出的组距不是测量单位的整数倍,则要上下调整圆整。当H向上圆整时,实际分组数K将比原选定的分组数小,当H向下圆整时,实际分组数将比原选定的分组数大,这并不影响直方图形态和分析结论。

6、确定各组的界限

即每根柱子的起点和终点值。

一般第一组起点为:Min-最小测定单位/2。

本例中最小测定单位为1(因为你没看到小数),所以起点为121-0.5=120.5。根据组距4,快速确定各组界限为:

  下限值 上限值
第一组 120.5 124.5
第二组 124.5 128.5
第三组 128.5 132.5
第四组 132.5 136.5
第五组 136.5 140.5
第六组 140.5 144.5
第七组 144.5 148.5

 

问:为什么要减去最小测定的单位/2?

答:因为不能让测量的数和柱子的边界相同啊,如果相同,放在哪个柱子上呢。

7、确定各组的频数

也就是落在各组的数据的数量是多少。

各位就各显神通去数吧,下篇文章简单讲下用Excel frequency函数和countifs函数快速确定频数的方法。Minitab的做法暂不涉及了(别问为什么,问就是写了这么多,懒了🤪)。

  下限值 上限值 频数
第一组 120.5 124.5 1
第二组 124.5 128.5 2
第三组 128.5 132.5 12
第四组 132.5 136.5 18
第五组 136.5 140.5 19
第六组 140.5 144.5 5
第七组 144.5 148.5 3

 

8、画图

终于到最后一步了。以组距为底长,以频数为高做图。

因为直方图除了看分布以外,还可确定分布的范围是否在接受范围(公差范围)内,所以还需标注公差范围(T)、样本容量(n)、样本平均值(x)、样本标准偏差值(s)和x的位置等(我承认我又偷懒了,不标了,各位正式做图的时候不能省略)。

另外为了图表美观,建议宽高比为2:3,强迫症患者欢迎取0.618。

 

 

到此结束,拜拜~


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM