11111111111
知识共享平台
知识共享平台

讨教大学平台

  • 首页
  • 免费课
  • 精品课
  • 讨教题库
  • 企业服务

    hot

  • 下载APP
  • 证书查询
  • 关于我们
我问
讨教号
搜索
消息
  • 我的文章

    我的关注

    我的问答

    我的秘密

    我的评论

    我的订阅

    我的打赏

    我的钱包

    我的通知

    我的设置

    退出登录

  • ×

    登录

    讨教 | 通行证

    登录
    立即注册
    忘记密码?
    使用微信登录

    提问 ×

    写下你的问题,准确的表述更容易得到答案

    类型话题

    选择支付方式
    您的讨教币 111 付费金额

    一元线性回归的假定(Assumption)

    OPEX运营优化
    2019-11-25 09:57:48
    57篇 作品
    1248 总阅读量

    最近有个讨论:即做一元线性回归(Simple Linear Regression-SLM)时,自变量(X)和因变量(Y)是否需要符合正态分布?不符合正态分布是否可以做回归?回归模型可不可以用?

     

    大家百度或谷歌一下,可以发现铺天盖地的结果说需要正态分布,但又语焉不详。本篇我们结合《Minitab与六西格玛管理》一书来介绍一下一元线性回归(SLM)究竟需不需要正态分布、以及前提是什么?

     

    基本上结论是:

    1. 自变量(X)正态性没有任何要求;

    2. 因变量(Y)比较复杂,也有很多误解。有两种意见:

      2.1 需要正态,但不通过检验因变量(Y)本身验证正态,而是通过残差检验来确认正态;

      2.2 不需要正态,但对于给定的自变量(X),因变量(Y)的一系列观察值得分布必须正态分布。

    具体而言,一元线性回归(SLM) 假定为:对自变量没有任何要求,只对因变量(Y)有以下5个假定:

    1. 存在性(Existence):对于任何给定的X值,Y是随机变量、且其符合一定分布,并存在有限的均值和方差;

    2. 独立性(Independent):对因变量(Y)的要求独立性,即因变量(Y)后一次的值和前一次值没有关系;

    3. 线性(Linearity):自变量(X)和因变量(Y)均值是线性函数关系;

    4. 正态性(Nomality): 对于任何给定的X值,Y是随机变量,Y的观察值符合正态分布,不是说Y符合正态分布而是Y在给定X值时,Y观察到的一组数符合正态分布;如图:当X取X1时,我们观察到一组Y值,这组Y值需满足正态分布,当取X2,X3,X4时,对应的Y的三组观察值也应该符合正态分布;

    5. 方差齐性(Homoscedasticity):当X取任何给定值时,Y在相应X给定值处观察值的分布是方差相同的分布。如下图:当X取X1时,Y的观察到的数据组和在X2,X3,X4时观察到数据组都是正态,且等方差。

     

    回归中是通过残差(Residual)来验证以上假设是否满足,而不是直接对因变量(Y)做正态性检验或其它验证,因为假设前提没有说因变量(Y)一定符合正态分布。

     

    残差(Residual)定义:观察值(observed value)减去拟合值(fitted value),如下图示意:

    自变量(X)

    观察值Y(observed value)

    拟合值(fitted value)

    残差Residual)

    3

    5.5

    5.1

    0.4

    5

    7.5

    7.8

    -0.3

    7

    12.5

    12.7

    -0.2

    12

    24

    24.5

    -0.5

    15

    28.5

    28.0

    0.5

    …

    …

    …

    …

    可以看出,如果一元线性回归模型拟合好的话,残差应该不管在X给定值在多少的情况下,残差都比较小,理想情况下:残差应该是以0为均值、一个很小数为方差的正态分布,且方差应该保持恒定。

     

    一元线性回归(SLM)就是通过旋转找到残差方差(SSE)最小的线性模型,即最小二乘法(Least Square Method)。

    在MINITAB中作一元线性回归(SLM),具体可以通过查看残差四合一图以及残差和自变量(X)图来查看和确保Y的几个假设是否满足:

    1. 线性(Linearity):残差和Y拟合值图、残差和X的给定值图应该是不管Y拟合值多大、X的给定值多少,残差一定是以较小值为中心等方差稳定波动,没有喇叭口和弯曲。弯曲代表二元关系、非线性。(2)&(4)

    2. 正态性(Normality): 残差的概率图接近直线、残差的直方图对称、钟形分布。(1)

    3. 方差齐性(Homoscedasticity):当X取任何给定值时,残差是一定较小值为中心等方差稳定波动,残差的时序图稳定受控。(3)

     

    最后,一元线性回归(Simple Linear Regression-SLM)正态性的要求是指:对于给定的自变量X值,因变量Y是随机变量、Y的观察值符合正态分布,而不是因变量Y符合正态分布。


     

    本网站内容仅代表作者本人的观点,不代表本网站的观点和看法,与本网站立场无关,如有侵权请联系讨教。
    给作者打赏,鼓励TA抓紧创作
    0人打赏金额
    OPEX运营优化
    57篇 作品
    1248 总阅读量
    评论
    您可能感兴趣的文章

    如何利用IT改善客户体验

    可以帮助减少客户体验摩擦的7种方法

    面向业务的22个最佳项目管理工具

    5种必备的IT基础设施自动化工具

    在2020年成功定位IT的7种方法

    IT主管们分享了将IT作为一项业务来运营的见解

    热门话题 更多话题
    精益生产 质量管理 智能制造
    职场效率 项目管理 讨教
    AI 大数据 六西格玛
    ×

    给作者打赏,鼓励TA抓紧创作!

    选择支付方式
    选择打赏金额
    注:打赏的收益归作者,非平台

    微信扫描支付

    打赏金额: 1元

    ×

    给作者打赏,鼓励TA抓紧创作!

    您的讨教币
    填写您打赏讨教币数量
    输入密码

    111

    注:打赏的收益归作者,非平台

    微信扫描支付

    打赏金额: 1元