您确定要删除吗?

取消
首页 算法大全 应用模型 分析软件 算法学院数据中心 关于本站
在线咨询
400-820-6981
意见反馈
返回顶部

岭回归分析

一 定义:回归分析(Regression Analysis)是一种统计学上的分析数据的方法,目的在于了解两个或多个变量之间是否相关以及相关方向与强度,并建立数学模型以便观察特定的自变量与需要预测的因变量之间的关系。具体的说,回归分析可以帮助了解在一个或多个自变量变化时因变量的变化量。

二 回归问题的分析方法:1)收集数据;2)建立一个适合相关问题的回归函数;3)通过学习已有的数据,对函数的未知参数进行估计;3)回归方程及回归系数的显著性检验;4)利用这个模型去预测/分类新的数据。

三 回归分析的原理:目的是为了找出一个最能够代表所有观测资料的函数,用这个函数来表示因变量与自变量的关系。回归的基本模型一般可以表示为:Y=f(X ,u),其中Y为因变量,X为自变量,u为未知参数。

四 回归分析方法分类:根据用途可以有多种分类,单变量的线性回归模型,多变量的线性回归模型,广义线性回归模型,概率单位回归模型,逻辑回归模型,曲线回归模型,岭回归模型,主成分回归模型等。

五 回归分析算法背景:

回归分析核心思想是采用最小二乘法原理来求解回归系数,最小二乘法思想背景:1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯计算了谷神星的轨道并进行了分析。奥地利天文学家海因里希·奥伯斯根据高斯计算出来的轨道重新发现了谷神星。

高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中,而法国科学家勒让德于1806年独立发现“最小二乘法”,但因不为世人所知而默默无闻。两人曾为谁最早创立最小二乘法原理发生争执。

1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,见高斯-马尔可夫定理。

六 参考资料:

· 中央大学数学系教材-最小二乘法

· 最小二乘法 - 维基百科,自由的百科全书

· http://www.physics.csbsju.edu/stats/least_squares.html

· http://www.orbitals.com/self/least/least.htm

· PlanetMath上最小二乘法

· 马克威分析系统使用教程——http://www.tenly.com

算法描述

1.1 算法摘要

岭回归是专门用于共线性数据的有偏估计回归方法。其实质是改良的最小二乘法,以放弃最小二乘的无偏性,损失部分信息,放弃部分精确度为代价来寻求效果稍差,但更符合实际的回归方程。

可应用的情况包括:数据点少于变量个数、所有变量之间有较强的线性相关性、变量之间的数据变化比较小、部分变量之间有线性相关等。

1.2 算法原理

岭回归为了避免最小二乘法中矩阵计算的行列式接近于零,而使得计算误差太大,所以在矩阵的主对角元素都加上一个K值,降低矩阵计算奇异的风险。矩阵可以表示为:

B(K)为回归方程组的最小平方解;它的值随着K的改变而改变,这个值就称为岭迹,我们可以根据岭迹图的平稳性确定K的取值。

所以岭回归主要在于参数K的选取;一般常用的参数选择方法包含以下四种类型:

1)利用方法Hoerl和Kennard(1970):

2)利用方法Lawless和Wang(1975):


3)利用方法Hoerl和Baldwin(1975):


4)利用方法均方误差H(k)最小法:

K值选取的原则:尽可能小的k使得参数的估计值尽量稳定下来。

岭回归对参数的估计步骤可以简化为以下几点:

1)对原始模型的变换:;先对自变量X作中心化和表量化处理,引入新变量Z,令:

代入方程可变为:

最后转换得到参数的最小平方估计为:

2)确定合适的K值;

3)确定K值后,参数估计的表达式为:

相关应用

岭回归是在自变量组成的信息矩阵的主对角线元素上人为的加入一个非负因子k,使得矩阵行列式不为零,以降低对回归系数估计的误差,提高估计精确度以及模型的平稳性。它是最小二乘法的补充,岭回归可以修复病态矩阵,达到较好的效果。

近年来,岭回归在经济、工业生产、工程技术、环境保护等方面已有一定的应用。

参考资料

1马克威分析系统使用教程——http://www.tenly.com

实例

示例数据:财政收入影响因素分析问题。财政收入(Y)与国民收入(X1)、工业总产值(X2)、农业总产值(X3)、总人口(X4)、就业人口(X5)、固定资产投资(X6)等因素之间的关系。下表为1952年到1981年的原始数据。

1952-1981年财政收入、国民收入、工业总产值、

农业总产值、总人口、就业人口、固定资产投资数据情况

年份 国民收入(亿元) 工业总产值(亿元) 农业总产值(亿元) 总人口(万人) 就业人口(万人) 固定资产投资(亿元) 财政收入(亿元)
1952 598 349 461 57482 20729 44 184
1953 586 455 475 58796 21364 89 216
1954 707 520 491 60266 21832 97 248
1955 737 558 529 61465 22328 98 254
1956 825 715 556 62828 23018 150 268
1957 837 798 575 64653 23711 139 286
1958 1028 1235 598 65994 26600 256 357
1959 1114 1681 509 67207 26173 338 444
1960 1079 1870 444 66207 25880 380 506
1961 757 1156 434 65859 25590 138 271
1962 677 964 461 67295 25110 66 230
1963 779 1046 514 69172 26640 85 266
1964 943 1250 584 70499 27736 129 323
1965 1152 1581 632 72538 28670 175 393
1966 1322 1911 687 74542 29805 212 466
1967 1249 1647 697 76368 30814 156 352
1968 1187 1565 680 78534 31915 127 303
1969 1372 2101 688 80671 33225 207 447
1970 1638 2747 767 82992 34432 312 564
1971 1780 3156 790 85229 35620 355 638
1972 1833 3365 789 87177 35854 354 658
1973 1978 3684 855 89211 36652 374 691
1974 1993 3696 891 90859 37369 393 655
1975 2121 4254 932 92421 38168 462 692
1976 2052 4309 955 93717 38834 443 657
1977 2189 4925 971 94974 39377 454 723
1978 2475 5590 1058 96259 39856 550 922
1979 2702 6065 1150 97542 40581 564 890
1980 2791 6592 1194 98705 41896 568 826
1981 2927 6862 1273 100072 73280 496 810

1)首先用普通的回归来建模,其系数的估计方法为最小二乘法;计算得到的回归方程为:

从上述回归方程的系数可以看出,该拟合方程失去了一定的经济意义。这是因为六个变量中只有第一个变量国民收入是正值,其余五个变量的系数均为负值,这明显不符合实际的经济情况。由经济规律可以看出:工业总产值的提高会增加国家的财政税收,因此工业总产值与财政收入应该呈正相关,同样对于农业来说,政府要对农业扶持和实行鼓励政策,当农业总产值升高,政府就会减少对农业的投入,财政收入亦应该提高,这样我们不得不怀疑常回归分析的正确性。

使用岭回归分析,首先要确定岭迹参数k的确定,下图为岭迹图,可以看出当k=0.1时,基本上所有的回归系数的估计值都能达到相对稳定状态。

所以,选定了岭迹参数k之后,计算得到最后的回归方程为:

从岭回归方程可以看出国民收入是影响财政收入的主要因素,其次是固定资产投资;同时工业总产值、农业总产值与财政收入呈现正相关关系,符合实际的经济规律。

输入输出

输入变量类型:整型、浮点型

输入数据尺度:标量型

输出结果:得到岭回归的回归方程

相关条目

最小二乘法、普通线性回归

优缺点

优点:可对变量之间共线性比较严重或病态数据偏多的数据类型作回归分析,对这类数据作回归得到的回归系数更符合实际,更可靠。另外,岭回归能让估计参数的波动范围变小,变的更稳定。

缺点:对系数的估计时,会损失部分信息、降低精度。同时岭回归方程的R平方值会稍低于普通的回归方法。

https://www.zhihu.com/

确定