一 定义:回归分析(Regression Analysis)是一种统计学上的分析数据的方法,目的在于了解两个或多个变量之间是否相关以及相关方向与强度,并建立数学模型以便观察特定的自变量与需要预测的因变量之间的关系。具体的说,回归分析可以帮助了解在一个或多个自变量变化时因变量的变化量。
二 回归问题的分析方法:1)收集数据;2)建立一个适合相关问题的回归函数;3)通过学习已有的数据,对函数的未知参数进行估计;3)回归方程及回归系数的显著性检验;4)利用这个模型去预测/分类新的数据。
三 回归分析的原理:目的是为了找出一个最能够代表所有观测资料的函数,用这个函数来表示因变量与自变量的关系。回归的基本模型一般可以表示为:Y=f(X ,u),其中Y为因变量,X为自变量,u为未知参数。
四 回归分析方法分类:根据用途可以有多种分类,单变量的线性回归模型,多变量的线性回归模型,广义线性回归模型,概率单位回归模型,逻辑回归模型,曲线回归模型,岭回归模型,主成分回归模型等。
五 回归分析算法背景:
回归分析核心思想是采用最小二乘法原理来求解回归系数,最小二乘法思想背景:1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯计算了谷神星的轨道并进行了分析。奥地利天文学家海因里希·奥伯斯根据高斯计算出来的轨道重新发现了谷神星。
高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中,而法国科学家勒让德于1806年独立发现“最小二乘法”,但因不为世人所知而默默无闻。两人曾为谁最早创立最小二乘法原理发生争执。
1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,见高斯-马尔可夫定理。
六 参考资料:
· 中央大学数学系教材-最小二乘法
· 最小二乘法 - 维基百科,自由的百科全书
· http://www.physics.csbsju.edu/stats/least_squares.html
· http://www.orbitals.com/self/least/least.htm
· PlanetMath上最小二乘法
· 马克威分析系统使用教程——http://www.tenly.com
1.1 算法摘要
逻辑回归与线性回归有所不同,线性回归主要是根据回归方程预测某个结果的具体值,而逻辑回归则是根据回归方程预测某个结果出现的概率。逻辑回归根据因变量的取值不同可以分为:二值逻辑回归、多值逻辑回归,有序多分类逻辑回归、无序多分类逻辑回归等。
其中二值逻辑回归用于研究某个二值随机事件发生的概率与某些因素之间的关系。多值逻辑回归研究多分类观察结果(因变量)与影响因素(自变量)之间关系的一种多变量分析方法。若因变量有K个水平,则除一个对照水平外,以每一类与对照水平作比较,拟合K个广义Logit模型;多值逻辑回归模型可应用在多分类的问题。
1.2 算法原理
对逻辑回归不能采用最小二乘法估计参数,而应使用极大似然估计或迭代加权的最小二乘法估计。因为极大似然估计正是应用于概率论上的参数估计,符合对因变量的概率预测。它的思想是:如果所选参数能使样本出现的概率最大,则可直接认为这个参数就是估计的真实值。
1.2.1二值逻辑回归的模型
假设代表自变量,表示因变量取值为“真”的概率,对作如下变换:
建立与的线性函数,即
或
我们称后面两式为线性Logistic回归模型,或简称Logistic模型。
1.2.2 多值逻辑回归模型
多值逻辑回归是二值逻辑回归的推广模型,可以用来解决多分类问题。假设离散型随机变量Y的取值集合是{1,2,…,K},那么多值逻辑回归的模型是:
这里
本算法的核心在于未知参数的极大似然估计值的求解。
三相关应用逻辑回归是离散选择法模型之一,属于多重变量分析的范畴,是社会学、生物统计学、临床学、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。
同时可应用于农业研究,如农药使用剂量与害虫死亡率的关系;应用于工业研究,如原材料的质量指标与次品率的关系;应用于医学研究,如人们的生活习惯、生存环境与某种疾病发病率之间的关系;应用于社会学研究,如某地区小学生的辍学率与家庭经济状况、家长受教育程度及学校质量等因素的关系
四参考资料1 Hosmer, D. W. and S. Lemeshow: Applied logistic regression. New York; Chichester, Wiley, 2000.
2逻辑回归 - 维基百科,自由的百科全书
3马克威分析系统使用教程——http://www.tenly.com
五实例用示例数据来检验二值逻辑回归算法,数据为需要研究分析患者是否感染与失血等因素的关系:
病例号 | 持续时间 | 失血量 | 输血量 | 是否感染 |
1 | 200 | 40 | 15.2 | 0 |
2 | 215 | 40 | 13.5 | 0 |
3 | 190 | 40 | 30 | 0 |
4 | 250 | 40 | 16.7 | 1 |
5 | 145 | 40 | 18.3 | 0 |
6 | 205 | 60 | 21.4 | 0 |
7 | 145 | 40 | 30.3 | 0 |
8 | 205 | 20 | 31 | 1 |
9 | 180 | 40 | 20 | 0 |
10 | 180 | 40 | 10 | 0 |
11 | 190 | 40 | 25 | 0 |
12 | 170 | 40 | 35.7 | 0 |
13 | 135 | 30 | 12.5 | 0 |
14 | 245 | 40 | 32.3 | 1 |
15 | 200 | 20 | 7.4 | 1 |
16 | 325 | 40 | 18.8 | 1 |
17 | 280 | 100 | 22.7 | 1 |
18 | 225 | 20 | 16.2 | 0 |
19 | 225 | 40 | 16.7 | 1 |
20 | 270 | 40 | 10.5 | 0 |
经计算得到的回归方程为:
Ln(Prob(1)/Prob(0))=-7.456+0.035*持续时间-0.0308*失血量+0.0607*输血量
得到患者是否感染与手术时间等因素之间的回归方程,可以将未知的新增数据代入该方程中,根据计算结果判断新增患者是否感染。
六输入输出输入变量:因变量必须是布尔型,自变量可以为除字符型、布尔型以外的任何类型。
输出结果:逻辑回归的回归方程。
七相关条目回归分析、极大似然估计
八优缺点优点:可以获得每个个性化的选择集合的一致性参数估计;各个类别的子集的一般化估计;可大大节省时间;在可选变量数目很多时,模型拟合的效果好。
缺点:逻辑回归应该满足各变量独立不相关。
北卡罗莱那州立大学Logistic回归课程
南佛罗里达大学Logistic回归课程