欢迎您注册蒲公英
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
说到数据,需要理解的最重要的事情之一就是什么值是常见的,什么值是罕见的。最常见的数据汇总之一是算术平均数,我们通常称之为平均值。您可能经常听到平均降雨量、平均交货时间或平均燃料价格。然而,有时候,均值并不能很好地表达常见情况。这时候,用直方图来绘制数据就是绝佳的机会了。 ![](https://mp.toutiao.com/mp/agw/article_material/open_image/get?code=YzhiNGUzNjBhMTBmOGNkZmI2ODBiNThmNTk1Y2E4MjksMTczMzEwNjQyMjAyNw==)
以 2021 年法国大奖赛上 44 号车手的单圈用时为例,这些用时按从最快到最慢的顺序排列。 ![](https://mp.toutiao.com/mp/agw/article_material/open_image/get?code=Y2E1N2YxNWE4ZGJhM2QyNTk2NzE3NGU5YWVkZjcxMzksMTczMzEwNjQyMjAyNw==)
我们可以看到,大多数的圈速在90到92秒之间——这是常见情况。数据集的平均值大约是109秒,与数据集中的任何数值(无论是快的还是慢的数值)都相差甚远。对于这样的数据,均值不是了解数据常见情况的好方法。掌握一些能快速帮你判断均值是否能代表常见情况的工具也是很有用的。 常见情况查看常见情况的一种快速方法是用直方图绘制数据。直方图将样本值划分为多个区间,并用条形表示每个区间内数据值出现的频率。以下是单圈用时的直方图: ![](https://mp.toutiao.com/mp/agw/article_material/open_image/get?code=MGVlZjQxZDRiOGU4ODhmMGU2NmNmZDc2NjZmYzljOGUsMTczMzEwNjQyMjAyNw==)
当直方图中代表常见情况的最高条形与最极端的数据之间存在间隙时,那么平均数通常就不能很好地体现常见情况了。 钟形数据当大多数值接近平均值,并且在平均数两侧,离平均数越远的数值越罕见时,直方图会呈现出钟形。当直方图呈钟形时,均值很好地描述了什么是常见情况了。 ![](https://mp.toutiao.com/mp/agw/article_material/open_image/get?code=YThiZDQzYTNmZTBhMzNiNTY1OTdhYjRkZDZkMjQwNjksMTczMzEwNjQyMjAyNw==)
下面的直方图显示了2022年上半年美国健康婴儿的出生体重样本(来自国家经济研究局)。大多数婴儿的体重都接近3300克。在平均数两侧,离平均数越远的体重数值在各个方向上都越来越罕见。 ![](https://mp.toutiao.com/mp/agw/article_material/open_image/get?code=MjExODljMjcyZGNjMjJmZGQ1ZWE4ZmQzYzdhZTI1NTYsMTczMzEwNjQyMjAyNw==)
右偏态数据数据的另一种常见形状是大多数数据是典型的,但有些数据可能大得多。我们称这种形状为“右偏态”。像收入和力量这类有下限但无上限的变量,通常遵循右偏态分布。对于右偏态数据,平均数往往与直方图中最高的条形相距甚远,这使得平均数难以成为体现常见情况的良好指标。通常我们会使用像中位数这样的替代统计量来体现右偏态数据中常见的情况。 下面的直方图显示了美国新抵押贷款持有者的收入样本(来自FHFA.gov)。在这个数据集中,中位数比平均数更能代表常见情况。 ![](https://mp.toutiao.com/mp/agw/article_material/open_image/get?code=YzkwZjZhNjZjMTA2N2Q4M2QxOWE2YmI4NzU1ZjJiOWIsMTczMzEwNjQyMjAyNw==)
什么是罕见情况当我们思考哪些数据是常见的时,我们会想到直方图中的高条形部分。在实际应用中,一个常见需求是预估符合客户规格的产品数量。不符合规格的产品是比较罕见的,这就需要了解那些与常见情况相差甚远的数据值。 当我们想要使用相对较小的数据样本来描述罕见的情况时,数据的形状是至关重要的。如果我们只想进行几十次测量,我们不一定会看到样本中出现少于1%的数据,但从我们这里购买数千件产品的客户却可能会遇到这些罕见数据。在这种情况下,我们会将数据形态作为一种模型,以便推断罕见数据是什么样的。 假设我们在宣布一批货物可以装运之前对一个小阀门的长度进行测量。为了尽可能达到我们的公差要求,我们把阀门造得大一点,然后尽可能精确地修整它们。太短的阀门在修整前就会被丢弃,所以在检查一批待发货的阀门时,我们根本不会有短阀门可供测量。这样的生产过程就产生了右偏态数据。 ![](https://mp.toutiao.com/mp/agw/article_material/open_image/get?code=MjRmNWRhZDkxYTBlY2ZhMTQ2NWFlMWMxYWNhZDkzMGQsMTczMzEwNjQyMjAyNw==)
如果我们用钟形模型来模拟这些数据,我们预估得到的过短阀门数量会比实际生活中可能出现的多得多。如果我们在这些右倾数据的直方图上叠加一条钟形曲线,你可以看到柱状图左边的空白区域,这表明曲线与数据不匹配。 ![](https://mp.toutiao.com/mp/agw/article_material/open_image/get?code=NGQ1YzUyZDIwYmJmYWU3MzA2YzRlNjIzYTEyYTEyNzEsMTczMzEwNjQyMjAyNw==)
如果我们添加一条右偏态线,曲线可以让我们很好地了解数据中罕见的情况,即使是相对较小的样本。 ![](https://mp.toutiao.com/mp/agw/article_material/open_image/get?code=ZmRmMDg5NGE0OTI1MDIxNDc3MDIzYTRhZTUwZGFhMjQsMTczMzEwNjQyMjAyNw==)
利用数据形态利用相对较小的样本去预估更大总体中将会发生的情况,这是质量统计中的一种常见应用。使用直方图来了解数据的形态,可以让你快速判断平均数是否能很好地代表数据中的常见情况。
|