样本量大于30就可以认为是正态分布吗？你可能对中心极限定理有误区！

MinitabChina · 发表于 2019-12-27 10:16:25

欢迎您注册蒲公英

您需要登录才可以下载或查看，没有帐号？立即注册

x

我经常会被问到这么一个问题：样本量多大就不用进行正态性检验了。殊不知，这问题的本身就是错误的，并不是样本大，就一定要服从正态分布。我们可以轻易举出一个反例来说明这个问题。比方说就用1-1000这一千个（甚至更多）自然数，组成一个样本，那么这个样本的分布就不是正态分布，因为1-1000服从的是均匀分布。另外，数据的分布基于形成的机理，有的分布天生就非正态（如寿命数据）。

但有些朋友，并不觉得这是一个错误的问题，甚至在他们的学习中还流传着这么一个说法：样本量大于30就可以认为是服从正态分布。但你向他问为什么的时候，会得到一个专业的解释——中心极限定理。

中心极限定理

中心极限定理（Central Limit Theorem）是统计学中最重要的结论之一。在这里，我并不想给出中心极限定理专业的定义，只需要了解它告诉我们：来自某总体的一个样本，无论该总体服从什么分布，只要样本容量足够大，其样本均值都近似服从正态分布。

请注意这里的说法：“样本均值“近似正态，而不是样本本身服从正态（不是说你抽了30个样品组成的样本数据就正态）。这里又有一个大家疑惑的地方，样本容量足够大，多大才是足够大？这个问题的答案和总体分布的形状相关，如果样本本是来自近似对称分布的总体，那么当样本量取相当小（如样本量取5）的值的时候，正态逼近的结果也会非常好。然后，如果总体的分布严重倾斜，则样本量必须取相当大的值。根据检验，对于大多数总体来说，样本容量取30或者更大，就足以得到令人满意的正态逼近结果。

模拟掷骰子展示中心极限定理

为了展示中心极限定理，模拟多次投掷骰子来说明。

假设您掷骰子 1000 次。您希望得到相等数目的 1、2 等。让我们查看 1000 次骰子的分布（图1）。

现在假设您将投掷 2 次，并采用两次投掷的平均值。您还将重复此试验 1000 次。让我们来看看两次投掷的平均值的分布。这种分布如图 2 所示。您是否注意到在只进行了两次投掷的情况下，平均值的分布已经呈现出了土堆形？

假设您现在投掷骰子三次，然后取三次投掷的平均值。再次重复此试验 1000 次。让我们来看看此举对投掷的平均值分布有何影响。这种分布如图 3 所示。同样，分布的形状与正态分布的形状相当接近。您是否注意到分布上发生了其他变化？

让我们投掷骰子五次，并取其平均值。再次重复此试验 1000 次。这种分布如图 4 所示。您是否已开始注意到所发生的情形中存在任何模式？

让我们继续增加平均投掷次数。此时您将投掷 10 次，并采用 10 次投掷的平均值。这种分布如图 5 所示。

现在，随着您增加投掷次数，将看到两个现象。首先，您会看到，平均分布的形状开始与正态分布的形状相似。其次，您会看到，随着投掷次数的增加，分布变得越来越窄。让我们继续增加投掷次数。此时，您将投掷骰子 20 次。这种分布如图 6 所示。

到现在，您应该确信增大样本数量对样本平均值分布是有影响的。您将再次增大样本数量，以强化这种认知。此时，您将投掷骰子 30 次。这种分布如图 7 所示。

让我们看看所呈现的情况，在一个图中绘制大小为 2、5、10、20、30 的样本的直方图，以查看变化的分布。

小结

从上面的模拟结果，可以知道，当样本量大于30的时候，那么样本均值（取了1000次样本，得到1000个均值）的分布基本呈正态分布。

另外该定理还指出，如果根据总体不断重复绘制随机样本数量 n 以及有限均值 mu(y) 和标准差 sigma(y)，然后在 n 较大时，样本均值的分布将近似呈正态分布，并且均值等于 mu(y)，标准差等于 (sigma(y))/sqrt(n)。

liuchaons · 发表于 2019-12-27 14:18:00

符不符合正态分布，做一个正态分布检验，看P值

xqliu · 发表于 2019-12-27 10:27:42

学习了，谢谢提供分享。

MinitabChina · 发表于 2019-12-27 11:45:39

xqliu 发表于 2019-12-27 10:27
学习了，谢谢提供分享。

学习更多好的文章请关注微信公众号Minitab Users Group ，我们更有Minitab微课堂学习群

胜利者 · 发表于 2019-12-27 13:30:51

学习

jixia · 发表于 2019-12-27 13:44:53

学习了

大呆子 · 发表于 2019-12-27 13:54:02

你这个两次投掷（1000次）怎么理解：

是做一千次的两次投掷吗？

glm1024 · 发表于 2019-12-27 17:29:22

看这ID是官方号？

3075589379 · 发表于 2020-1-2 10:44:29

大呆子发表于 2019-12-27 13:54
你这个两次投掷（1000次）怎么理解：

是做一千次的两次投掷吗？

看他后面写的，就是这个意思。投两次，取均值，重复1000次

MinitabChina · 发表于 2020-1-14 15:31:18

glm1024 发表于 2019-12-27 17:29
看这ID是官方号？

学习更多可以关注我们的微信公众号Minitab Users Group 我们会分享更多地案例，还有专属的Minitab微课堂微信群，添加客服微信13524041180 回复入群

英诺 · 发表于 2021-3-26 14:28:32

同问，从样本来看，实际分别进行了2000，3000次，5000，1万，3万次，某种意义上是样本量增大了。当然样本量大仍不一定遵守正态分布，还有可能是幂律分布

样本量多大就不用进行正态性检验了。殊不知，这问题的本身就是错误的，并不是样本大，就一定要服从正态分布。

cslong88 · 发表于 2021-5-9 08:04:28

学习了！谢谢分享。

MinitabChina · 发表于 2021-5-18 10:44:12

学习更多，加入我们的Minitab微信群，添加客服微信13524041180，备注入群~

lindeijun · 发表于 2024-3-3 08:29:20

谢谢分享

PGYPGYPGY2021 · 发表于 2024-3-20 08:24:19

用1-1000来举例说明合适吗？

来自安卓APP客户端

aas2231 · 发表于 2024-5-24 13:50:59

感谢分享~~~~~~~

[统计软件] 样本量大于30就可以认为是正态分布吗？你可能对中心极限定理有误区！

欢迎您注册蒲公英

点评

浏览过的版块