岭回归分析

一定义：回归分析（Regression Analysis）是一种统计学上的分析数据的方法，目的在于了解两个或多个变量之间是否相关以及相关方向与强度，并建立数学模型以便观察特定的自变量与需要预测的因变量之间的关系。具体的说，回归分析可以帮助了解在一个或多个自变量变化时因变量的变化量。

二回归问题的分析方法：1）收集数据；2）建立一个适合相关问题的回归函数；3）通过学习已有的数据，对函数的未知参数进行估计；3）回归方程及回归系数的显著性检验；4）利用这个模型去预测/分类新的数据。

三回归分析的原理：目的是为了找出一个最能够代表所有观测资料的函数，用这个函数来表示因变量与自变量的关系。回归的基本模型一般可以表示为：Y=f(X ,u)，其中Y为因变量，X为自变量，u为未知参数。

四回归分析方法分类：根据用途可以有多种分类，单变量的线性回归模型，多变量的线性回归模型，广义线性回归模型，概率单位回归模型，逻辑回归模型，曲线回归模型，岭回归模型，主成分回归模型等。

五回归分析算法背景：

回归分析核心思想是采用最小二乘法原理来求解回归系数，最小二乘法思想背景：1801年，意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后，由于谷神星运行至太阳背后，使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星，但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯计算了谷神星的轨道并进行了分析。奥地利天文学家海因里希·奥伯斯根据高斯计算出来的轨道重新发现了谷神星。

高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中，而法国科学家勒让德于1806年独立发现“最小二乘法”，但因不为世人所知而默默无闻。两人曾为谁最早创立最小二乘法原理发生争执。

1829年，高斯提供了最小二乘法的优化效果强于其他方法的证明，见高斯-马尔可夫定理。

六参考资料：

· 中央大学数学系教材-最小二乘法

· 最小二乘法 - 维基百科，自由的百科全书

· http://www.physics.csbsju.edu/stats/least_squares.html

· http://www.orbitals.com/self/least/least.htm

· PlanetMath上最小二乘法

· 马克威分析系统使用教程——http：//www.tenly.com

岭回归是在自变量组成的信息矩阵的主对角线元素上人为的加入一个非负因子k，使得矩阵行列式不为零，以降低对回归系数估计的误差，提高估计精确度以及模型的平稳性。它是最小二乘法的补充，岭回归可以修复病态矩阵，达到较好的效果。

近年来，岭回归在经济、工业生产、工程技术、环境保护等方面已有一定的应用。

四参考资料

1马克威分析系统使用教程——http：//www.tenly.com

五实例

示例数据：财政收入影响因素分析问题。财政收入(Y)与国民收入(X1)、工业总产值(X2)、农业总产值(X3)、总人口(X4)、就业人口(X5)、固定资产投资(X6)等因素之间的关系。下表为1952年到1981年的原始数据。

1952-1981年财政收入、国民收入、工业总产值、

农业总产值、总人口、就业人口、固定资产投资数据情况

年份	国民收入（亿元）	工业总产值(亿元)	农业总产值（亿元）	总人口（万人）	就业人口（万人）	固定资产投资（亿元）	财政收入(亿元)
1952	598	349	461	57482	20729	44	184
1953	586	455	475	58796	21364	89	216
1954	707	520	491	60266	21832	97	248
1955	737	558	529	61465	22328	98	254
1956	825	715	556	62828	23018	150	268
1957	837	798	575	64653	23711	139	286
1958	1028	1235	598	65994	26600	256	357
1959	1114	1681	509	67207	26173	338	444
1960	1079	1870	444	66207	25880	380	506
1961	757	1156	434	65859	25590	138	271
1962	677	964	461	67295	25110	66	230
1963	779	1046	514	69172	26640	85	266
1964	943	1250	584	70499	27736	129	323
1965	1152	1581	632	72538	28670	175	393
1966	1322	1911	687	74542	29805	212	466
1967	1249	1647	697	76368	30814	156	352
1968	1187	1565	680	78534	31915	127	303
1969	1372	2101	688	80671	33225	207	447
1970	1638	2747	767	82992	34432	312	564
1971	1780	3156	790	85229	35620	355	638
1972	1833	3365	789	87177	35854	354	658
1973	1978	3684	855	89211	36652	374	691
1974	1993	3696	891	90859	37369	393	655
1975	2121	4254	932	92421	38168	462	692
1976	2052	4309	955	93717	38834	443	657
1977	2189	4925	971	94974	39377	454	723
1978	2475	5590	1058	96259	39856	550	922
1979	2702	6065	1150	97542	40581	564	890
1980	2791	6592	1194	98705	41896	568	826
1981	2927	6862	1273	100072	73280	496	810

1）首先用普通的回归来建模，其系数的估计方法为最小二乘法；计算得到的回归方程为：

从上述回归方程的系数可以看出，该拟合方程失去了一定的经济意义。这是因为六个变量中只有第一个变量国民收入是正值，其余五个变量的系数均为负值，这明显不符合实际的经济情况。由经济规律可以看出：工业总产值的提高会增加国家的财政税收，因此工业总产值与财政收入应该呈正相关，同样对于农业来说，政府要对农业扶持和实行鼓励政策，当农业总产值升高，政府就会减少对农业的投入，财政收入亦应该提高，这样我们不得不怀疑常回归分析的正确性。

使用岭回归分析，首先要确定岭迹参数k的确定，下图为岭迹图，可以看出当k=0.1时，基本上所有的回归系数的估计值都能达到相对稳定状态。