欢迎您注册蒲公英
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
本帖最后由 九三 于 2018-6-17 19:17 编辑
探索性数据分析(EDA)和箱线图 事情还是从一个小小的偏差说起,一如以往,内网发过来一份报告,涉及中药清膏出膏量超出工艺范围的三级偏差,通常这样的偏差如何处理等等,是不到我这的。耐着性子看完,如韩剧一般,调查报告里七八张表,数据拥挤罗列在那,咧着嘴,对我笑,除此之外,就是报告结论,也是老三篇,过程调查没有问题,一切正常。 怎么就又没问题了?于是,自己先做简单的箱线图,分析一下,放在那。找来QA,希望能利用这些数据说话,不要这样笼统定性说,没什么意义。就这样,等着QA的结果,几天过去了……。 突然,原来单位的同事,发来一个ppt,是说不同实验室之间进行能力验证的“Z比分数”,里面也涉及箱线图的应用,从头到尾看完,突然觉得,也许这也是一个好的方法和思路。 我们在日常生产管理或质量管理中,逐步对数据分析应用的越来越多了,在使用过程中,也出现了两类问题: 1、在使用传统的方法时,都有一个前提假设,如数据服从某个分布,如正态分布。然后,才能使用相应的分析方法。但,在实际应用时,多数数据并不能保证满足假定的理论分布,如正态分布或泊松分布。所以,传统方法的统计结果常常表现很差,在应用上受到很大局限。 2、在对过程进行分析判断,或改进时,不能主观臆断问题产生的原因,所以,不应对数据有太多的前提假定,也就不应对原始数据做太多的转换。转换可能会掩盖问题实质,或误入歧途。 这里有一个很好的解决方法,即“探索性数据分析(EDA)”,它有以下三个特点: 1、一切从原始数据出发,深入探索数据的内在规律性,而不是从某种假定出发,套用理论结论,拘泥于模型的假设。 2、分析方法从实际出发,不强调理论严谨性,完全从数据出发,灵活对待,灵活处理,什么方法可以达到目的,就使用什么方法。更着眼于方法的稳健性、耐抗性,而不刻意追求概率意义上的精确性。 3、分析工具简单直观,更加强调直观及图形化,使大多数使用者都能从中分析出有用的信息。 探索性数据分析(EDA),主要关注的是分析数据全过程的早期阶段,这时候还无法进行常规的统计分析。所以,探索性数据适用于目前我们大多数企业的大多数的应用之中。 EDA相关的分析工具,在minitab 16和17中都有,而新出的minitab 18中没找到,在minitab 17中“EDA”在常规的菜单中找不到,要在“工具/自定义”添加 EDA 命令,如下图所示: 我们先来看一下,探索性数据分析(EDA)经常用到的“箱线图”,箱线图就是用简单的图示方法把多个数据组特征同时展现出来。 粗略看,EDA的箱线图与原来传统的箱线图似乎完全相同,但实际上仍有微小差异,尤其当样本量较小时差异更大些。 例如有一组数据,有5个数,如下表:(进行正态性检验,其P值为0.02,数据没有通过正态性检验。)那么分别用传统箱线图来做,再用EDA方法做,比较一下两者的区别。 其中,传统箱线图四分位数的计算是在正态分布的假定下,求出对于各分位数的次序统计量最佳线性函数的估计公式,而EDA中的四分数则是在无任何假定条件下,根据深度的概念而给出的公式。
下图为传统的箱线图计算和图示: 从上面传统的箱线图,可以看到,数据中没有异常数据,数据中最大的2700,也没有超出上限(上须触线)。 下面再以EDA方法进行箱线图计算和图示: 从上图可以看出,EDA的箱线图,图中已有异常数据,即2700。这里有一点,minitab 17中的EDA工具栏中的箱线图做出来的图与传统的一样。使用时要慎用,尤其是数据量小的时候。 从以上两种不同方法,也可以看出,传统的箱线图,受异常值的干扰大,虽然中位数相同,但箱体高度不一样,也就是散布不同,传统的为1075,而EDA的为300。EDA的箱线图对于个别的异常值,耐抗性强,经得起少数异常数据的影响。也可甄别出异常数据。
|