一 定义:回归分析(Regression Analysis)是一种统计学上的分析数据的方法,目的在于了解两个或多个变量之间是否相关以及相关方向与强度,并建立数学模型以便观察特定的自变量与需要预测的因变量之间的关系。具体的说,回归分析可以帮助了解在一个或多个自变量变化时因变量的变化量。
二 回归问题的分析方法:1)收集数据;2)建立一个适合相关问题的回归函数;3)通过学习已有的数据,对函数的未知参数进行估计;3)回归方程及回归系数的显著性检验;4)利用这个模型去预测/分类新的数据。
三 回归分析的原理:目的是为了找出一个最能够代表所有观测资料的函数,用这个函数来表示因变量与自变量的关系。回归的基本模型一般可以表示为:Y=f(X ,u),其中Y为因变量,X为自变量,u为未知参数。
四 回归分析方法分类:根据用途可以有多种分类,单变量的线性回归模型,多变量的线性回归模型,广义线性回归模型,概率单位回归模型,逻辑回归模型,曲线回归模型,岭回归模型,主成分回归模型等。
五 回归分析算法背景:
回归分析核心思想是采用最小二乘法原理来求解回归系数,最小二乘法思想背景:1801年,意大利天文学家朱赛普·皮亚齐发现了第一颗小行星谷神星。经过40天的跟踪观测后,由于谷神星运行至太阳背后,使得皮亚齐失去了谷神星的位置。随后全世界的科学家利用皮亚齐的观测数据开始寻找谷神星,但是根据大多数人计算的结果来寻找谷神星都没有结果。时年24岁的高斯计算了谷神星的轨道并进行了分析。奥地利天文学家海因里希·奥伯斯根据高斯计算出来的轨道重新发现了谷神星。
高斯使用的最小二乘法的方法发表于1809年他的著作《天体运动论》中,而法国科学家勒让德于1806年独立发现“最小二乘法”,但因不为世人所知而默默无闻。两人曾为谁最早创立最小二乘法原理发生争执。
1829年,高斯提供了最小二乘法的优化效果强于其他方法的证明,见高斯-马尔可夫定理。
六 参考资料:
· 中央大学数学系教材-最小二乘法
· 最小二乘法 - 维基百科,自由的百科全书
· http://www.physics.csbsju.edu/stats/least_squares.html
· http://www.orbitals.com/self/least/least.htm
· PlanetMath上最小二乘法
· 马克威分析系统使用教程——http://www.tenly.com
1.1 算法摘要
概率单位回归主要用于分析实验的刺激强度和反应比例之间的关系。其目的是得到达到某一反应比例所需要的刺激强度。用于分析剂量—反应关系,从而可以根据剂量求得反应结果。
1.2 算法原理
概率单位回归与逻辑回归有很大的相同点,如两者的结果都是以二分类形式表达,但概率单位回归分析用于实验研究,逻辑回归分析更多是用于观察性研究。概率单位回归方程是将概率转换为与自变量所对应的标准正态离差,将因变量的反应率作逻辑转换,即logit(P)=ln(p/(1-P)),这样将概率单位回归模型就转化为逻辑回归模型,便于求解。
概率单位回归模型主要是针对定性(两态或多态的)因变量而提出的回归分析法。模型响应概率为:
其中::为参数估计向量
F:为累积分布函数(正态的、logistic等)
X:为自变量向量
p:响应概率
C:自然(阀值的)响应比率,;可以取固定值,也可以估计;c=0是常用的模型
对模型的响应概率方程参数的估计可以通过以下方法:对参数C的估计,可直接通过模型估计出来,这种方法为:计算模型对数似然函数的二阶导数矩阵,即求解黑塞矩阵。对参数的极大似然估计,可由Nenwfon-Raphso迭代算法计算。
概率单位回归分析能够应用于生物、医学、化学等行业中;尤其广泛应用于医学研究领域,尤其是毒理学研究中,常需要进行剂量-反应关系研究,从而求得半数有效量或半数致死量。
例如,研究用某种药物的剂量与病人副反应之间的关系,某种药物的剂量与病人的治愈率之间的关系。此时,研究者往往选择半数有效剂量或半数致死量来反应药物作用。所谓的半数有效量或半数致死量,是指全部实验对象有50%产生某种特定效应或死亡需要的剂量。
四参考资料1马克威分析系统使用教程——http://www.tenly.com
五实例示例数据为研究某毒素的毒力,观察给药一小时,老鼠的死亡情况。数据如下所示:
编号 | 剂量 | 死亡总数 | 总例数 |
1 | 128 | 0 | 10 |
2 | 160 | 2 | 10 |
3 | 200 | 5 | 10 |
4 | 250 | 7 | 10 |
5 | 312 | 10 | 10 |
假设该数据算例的模型为:P=C+A*剂量,现要对C和A进行估计,最终的计算结果为:
P=-4.3471+0.0207*剂量
其中概率表示老鼠死亡的可能性大小。从结果可以看出,剂量越大,老鼠死亡可能性也就越大,即增加1单位的剂量,死亡可能性增加0.0207.
六输入输出输入变量类型:整型、浮点型 (注:取值不能为负,反应数不大于总观测数);输入数据尺度:标量型
输出结果:得到概率单位回归模型的回归方程。
七相关条目响应概率、刺激强度
八优缺点