蒲公英 - 制药技术的传播者 GMP理论的实践者

搜索
查看: 762|回复: 0
收起左侧

[统计软件] 使用 Minitab 回归进行预测分析 – 第二部分

[复制链接]
药徒
发表于 2023-9-13 10:19:55 | 显示全部楼层 |阅读模式

欢迎您注册蒲公英

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回归的目的是进行准确预测。模型中的项(线性、交互、二次)和用于计算模型的样本数据是影响模型可预测性的两大因素。项过多的模型通常会过度拟合样本数据,但会导致对新数据值的预测不佳。
前文中,我们讨论了如何快速构建、验证和可视化预测模型。现在,我们将深入了解验证模型的预测能力、自动化分析和模型选择以及预测新结果的更高级功能。

验证 MINITAB预测模型的能力
下图显示了一个过度拟合的模型。在添加来自同一过程的新数据时,该模型在预测新测量值方面表现不佳。如果使用线性模型来拟合原始数据,则可以做出更准确的预测。验证用于防止构建可预测性较低的模型。



验证过程分为两步,首先根据一组数据(训练集)构建模型。然后使用该模型对模型构建中省略的一组数据(测试集)进行预测。有三类验证技术:逐一剔除法、K 折叠和使用测试集验证。

使用验证时,分析师需要了解报告的模型及对应的 R2值。R2值用于了解模型在样本数据中解释了多少变异以及准确预测新值的能力。R2R2值越高越理想。如果过度拟合是潜在问题,则测试集和训练集之间的 R2值会存在较大差异。

逐一剔除法验证
验证过程省略一个数据点,作为测试集。剩余的 n-1 个观测值用于计算训练模型。然后使用该模型计算删除数据点的预测误差。每次观察都会重复此过程。预测误差用于生成预测 R2。请注意,预测 R2是所有回归模型的标准输出。

回归中的 K 折叠验证
在 K 折叠验证中,将数据随机分配到 K 个大小相同的组中,通常 K=10。删除第一组,作为测试集,并以剩余的组作为训练集来构建模型。使用训练模型对忽略组进行预测,来计算预测误差。将针对各组重复此过程,并计算复合 K 折叠 R2。

使用测试集验证
在使用测试集验证方法时,将随机数据子集分配为测试集,例如 30%,剩余的训练集 (70%) 用于计算预测模型。使用测试集对该模型进行验证,以计算测试 R2。



比较验证技术
K 折叠验证更适用于中等大小的样本,而使用测试集方法的验证则是大型数据集的理想之选。需要注意的是,逐一剔除法和 K 折叠验证技术仅验证模型的形式,而不能像使用测试集方法那样验证精确的模型系数。

自动化分析和模型选择。
回归模型选择通常是一个手动流程。但数据集不仅增加了观测值个数,还测量了更多变量。必须手动删除项可能让人望而生畏。

模型选择可以自动化。三种常见程序如下:

项 p 值的 Alpha 标准:逐步,使用“前进法”和“后退法”选择一个模型,该模型中的项在阈值 alpha 中具有显著意义。

模型拟合的信息标准:AICc 或 BIC 前进法将选择可最小化所选信息标准的模型。

模型预测拟合的 R 平方值:K 折叠或使用测试集进行验证前进法将选择具有最高测试 R2值的模型。

验证方法往往会导致不同的结果;因此,最好结合行业知识,找到最实用、最具影响力的解决方案。

预测新结果并优化参数
回归分析是一个强大的工具,一旦选择了“最佳”模型,就可以用其进行预测。以制造工厂的洁净室为例。重要的是了解几个预测变量对每立方英尺超过 100 个 0.5μ 或更大尺寸的粒子计数的影响。工艺工程师构建粒子计数预测模型:



该模型用于预测在有 7 名员工和 24 个洁净室入口/出口的情况下,完成 1000 生产量:

每立方英尺超过 100 个 0.5μ 或更大尺寸的预测平均粒子计数为 87.63。置信区间和预测区间说明了预测中的潜在误差。

MINITAB 让回归变得简单


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

×发帖声明
1、本站为技术交流论坛,发帖的内容具有互动属性。您在本站发布的内容:
①在无人回复的情况下,可以通过自助删帖功能随时删除(自助删帖功能关闭期间,可以联系管理员微信:8542508 处理。)
②在有人回复和讨论的情况下,主题帖和回复内容已构成一个不可分割的整体,您将不能直接删除该帖。
2、禁止发布任何涉政、涉黄赌毒及其他违反国家相关法律、法规、及本站版规的内容,详情请参阅《蒲公英论坛总版规》。
3、您在本站发表、转载的任何作品仅代表您个人观点,不代表本站观点。不要盗用有版权要求的作品,转贴请注明来源,否则文责自负。
4、请认真阅读上述条款,您发帖即代表接受上述条款。

QQ|手机版|蒲公英|ouryao|蒲公英 ( 京ICP备14042168号-1 )  增值电信业务经营许可证编号:京B2-20243455  互联网药品信息服务资格证书编号:(京)-非经营性-2024-0033

GMT+8, 2025-3-25 14:06

Powered by Discuz! X3.4运维单位:苏州豚鼠科技有限公司

Copyright © 2001-2020, Tencent Cloud.

声明:蒲公英网站所涉及的原创文章、文字内容、视频图片及首发资料,版权归作者及蒲公英网站所有,转载要在显著位置标明来源“蒲公英”;禁止任何形式的商业用途。违反上述声明的,本站及作者将追究法律责任。
快速回复 返回顶部 返回列表