蒲公英 - 制药技术的传播者 GMP理论的实践者

搜索
查看: 5235|回复: 15
收起左侧

[统计软件] 样本量大于30就可以认为是正态分布吗?你可能对中心极限定理有误区!

[复制链接]
药徒
发表于 2019-12-27 10:16:25 | 显示全部楼层 |阅读模式

欢迎您注册蒲公英

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
我经常会被问到这么一个问题:样本量多大就不用进行正态性检验了。殊不知,这问题的本身就是错误的,并不是样本大,就一定要服从正态分布。我们可以轻易举出一个反例来说明这个问题。比方说就用1-1000这一千个(甚至更多)自然数,组成一个样本,那么这个样本的分布就不是正态分布,因为1-1000服从的是均匀分布。另外,数据的分布基于形成的机理,有的分布天生就非正态(如寿命数据)。
但有些朋友,并不觉得这是一个错误的问题,甚至在他们的学习中还流传着这么一个说法:样本量大于30就可以认为是服从正态分布。但你向他问为什么的时候,会得到一个专业的解释——中心极限定理。
中心极限定理
中心极限定理(Central Limit Theorem)是统计学中最重要的结论之一。在这里,我并不想给出中心极限定理专业的定义,只需要了解它告诉我们:来自某总体的一个样本,无论该总体服从什么分布,只要样本容量足够大,其样本均值都近似服从正态分布。
请注意这里的说法:“样本均值“近似正态,而不是样本本身服从正态(不是说你抽了30个样品组成的样本数据就正态)。这里又有一个大家疑惑的地方,样本容量足够大,多大才是足够大?这个问题的答案和总体分布的形状相关,如果样本本是来自近似对称分布的总体,那么当样本量取相当小(如样本量取5)的值的时候,正态逼近的结果也会非常好。然后,如果总体的分布严重倾斜,则样本量必须取相当大的值。根据检验,对于大多数总体来说,样本容量取30或者更大,就足以得到令人满意的正态逼近结果。
模拟掷骰子展示中心极限定理
为了展示中心极限定理,模拟多次投掷骰子来说明。
假设您掷骰子 1000 次。您希望得到相等数目的 1、2 等。让我们查看 1000 次骰子的分布(图1)。
1.png

现在假设您将投掷 2 次,并采用两次投掷的平均值。您还将重复此试验 1000 次。让我们来看看两次投掷的平均值的分布。这种分布如图 2 所示。您是否注意到在只进行了两次投掷的情况下,平均值的分布已经呈现出了土堆形?
2.png

假设您现在投掷骰子三次,然后取三次投掷的平均值。再次重复此试验 1000 次。让我们来看看此举对投掷的平均值分布有何影响。这种分布如图 3 所示。同样,分布的形状与正态分布的形状相当接近。您是否注意到分布上发生了其他变化?
3.png

让我们投掷骰子五次,并取其平均值。再次重复此试验 1000 次。这种分布如图 4 所示。您是否已开始注意到所发生的情形中存在任何模式?
4.png

让我们继续增加平均投掷次数。此时您将投掷 10 次,并采用 10 次投掷的平均值。这种分布如图 5 所示。
5.png

现在,随着您增加投掷次数,将看到两个现象。首先,您会看到,平均分布的形状开始与正态分布的形状相似。其次,您会看到,随着投掷次数的增加,分布变得越来越窄。让我们继续增加投掷次数。此时,您将投掷骰子 20 次。这种分布如图 6 所示。
6.png

到现在,您应该确信增大样本数量对样本平均值分布是有影响的。您将再次增大样本数量,以强化这种认知。此时,您将投掷骰子 30 次。这种分布如图 7 所示。
7.png

让我们看看所呈现的情况,在一个图中绘制大小为 2、5、10、20、30 的样本的直方图,以查看变化的分布。
8.png

小结
从上面的模拟结果,可以知道,当样本量大于30的时候,那么样本均值(取了1000次样本,得到1000个均值)的分布基本呈正态分布。

另外该定理还指出,如果根据总体不断重复绘制随机样本数量 n 以及有限均值 mu(y) 和标准差 sigma(y),然后在 n 较大时,样本均值的分布将近似呈正态分布,并且均值等于 mu(y),标准差等于 (sigma(y))/sqrt(n)。

回复

使用道具 举报

药生
发表于 2019-12-27 14:18:00 | 显示全部楼层
符不符合正态分布,做一个正态分布检验,看P值
回复

使用道具 举报

药师
发表于 2019-12-27 10:27:42 | 显示全部楼层
学习了,谢谢提供分享。
回复

使用道具 举报

药徒
 楼主| 发表于 2019-12-27 11:45:39 | 显示全部楼层
xqliu 发表于 2019-12-27 10:27
学习了,谢谢提供分享。

学习更多好的文章请关注微信公众号Minitab Users Group  ,我们更有Minitab微课堂学习群
回复

使用道具 举报

药生
发表于 2019-12-27 13:30:51 | 显示全部楼层
回复

使用道具 举报

药徒
发表于 2019-12-27 13:44:53 | 显示全部楼层
回复

使用道具 举报

大师
发表于 2019-12-27 13:54:02 | 显示全部楼层
你这个两次投掷(1000次)怎么理解:

是做一千次的两次投掷吗?

点评

看他后面写的,就是这个意思。投两次,取均值,重复1000次  详情 回复 发表于 2020-1-2 10:44
回复

使用道具 举报

药士
发表于 2019-12-27 17:29:22 | 显示全部楼层
看这ID是官方号?
回复

使用道具 举报

药徒
发表于 2020-1-2 10:44:29 | 显示全部楼层
大呆子 发表于 2019-12-27 13:54
你这个两次投掷(1000次)怎么理解:

是做一千次的两次投掷吗?

看他后面写的,就是这个意思。投两次,取均值,重复1000次
回复

使用道具 举报

药徒
 楼主| 发表于 2020-1-14 15:31:18 | 显示全部楼层
glm1024 发表于 2019-12-27 17:29
看这ID是官方号?

学习更多可以关注我们的微信公众号Minitab Users Group 我们会分享更多地案例,还有专属的Minitab微课堂微信群,添加客服微信13524041180 回复入群
回复

使用道具 举报

药徒
发表于 2021-3-26 14:28:32 | 显示全部楼层
同问,从样本来看,实际分别进行了2000,3000次,5000,1万,3万次,某种意义上是样本量增大了。当然样本量大仍不一定遵守正态分布,还有可能是幂律分布
样本量多大就不用进行正态性检验了。殊不知,这问题的本身就是错误的,并不是样本大,就一定要服从正态分布。
回复

使用道具 举报

发表于 2021-5-9 08:04:28 | 显示全部楼层
学习了!谢谢分享。
回复

使用道具 举报

药徒
 楼主| 发表于 2021-5-18 10:44:12 | 显示全部楼层
学习更多,加入我们的Minitab微信群,添加客服微信13524041180,备注入群~
回复

使用道具 举报

药徒
发表于 2024-3-3 08:29:20 | 显示全部楼层
回复

使用道具 举报

药徒
发表于 2024-3-20 08:24:19 来自手机 | 显示全部楼层
用1-1000来举例说明合适吗?
回复

使用道具 举报

药徒
发表于 2024-5-24 13:50:59 | 显示全部楼层
感谢分享~~~~~~~
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

×发帖声明
1、本站为技术交流论坛,发帖的内容具有互动属性。您在本站发布的内容:
①在无人回复的情况下,可以通过自助删帖功能随时删除(自助删帖功能关闭期间,可以联系管理员微信:8542508 处理。)
②在有人回复和讨论的情况下,主题帖和回复内容已构成一个不可分割的整体,您将不能直接删除该帖。
2、禁止发布任何涉政、涉黄赌毒及其他违反国家相关法律、法规、及本站版规的内容,详情请参阅《蒲公英论坛总版规》。
3、您在本站发表、转载的任何作品仅代表您个人观点,不代表本站观点。不要盗用有版权要求的作品,转贴请注明来源,否则文责自负。
4、请认真阅读上述条款,您发帖即代表接受上述条款。

QQ|手机版|蒲公英|ouryao|蒲公英 ( 京ICP备14042168号-1 )  增值电信业务经营许可证编号:京B2-20243455  互联网药品信息服务资格证书编号:(京)-非经营性-2024-0033

GMT+8, 2024-12-12 06:53

Powered by Discuz! X3.4运维单位:苏州豚鼠科技有限公司

Copyright © 2001-2020, Tencent Cloud.

声明:蒲公英网站所涉及的原创文章、文字内容、视频图片及首发资料,版权归作者及蒲公英网站所有,转载要在显著位置标明来源“蒲公英”;禁止任何形式的商业用途。违反上述声明的,本站及作者将追究法律责任。
快速回复 返回顶部 返回列表