统计,顾名思义即将信息统括起来进行计算的意思,它是对数据进行定量处理的理论与技术。统计分析,常指对收集到的有关数据资料进行整理归类并进行解释的过程。在整个统计分析的过程中,分析是最重要的一个环节,如果缺少这一步,会降低统计工作的作用;准确的说,没有统计分析,统计的工作就没有活力、没有发展,也就没有统计工作的意义。
采用统计分析方法进行研究,必须遵循以下几个统计学基本特征:(1)科学性;(2)直观性;(3)可重复性
统计分析除了基础的统计分析外,还包含了高级统计的知识。高级统计一般包括:回归分析、聚类分析、时间序列、生存分析、判别分析、主成分分析、因子分析、协整分析、联立方程、面板数据模型等统计分析方法。这些高级统计分析不仅包含基础的变量统计信息,还能用于对数据的分类、聚类、回归及预测。可以说高级统计分析部分应用的范围更广、使用频率更高、实际解决问题的能力更强。
统计分析方法很多,但基本方法是定量分析。然而仅仅定量分析还是不足以解决问题,所以应遵循一定的分析技巧,统计分析技巧可以按照“定性—定量—定性”的顺序,巧妙的将定量分析和定性分析结合。
1.1.算法摘要
方差分析又称为“变异数分析”或“F检验”,用于检验两个及两个以上样本均数差别的显著性检验。方差分析的目的是为了通过数据分析,找出复杂事物中即相互制约又相互依存的各因素之间的交互作用,以及影响因素的最佳水平。
方差分析采用了离差平方和的思想;把数据间总的变差按各自指定的变差来源进行分解,追溯到指定来源变差的部分离差平方和,并分析各个部分的性质。
方差分析根据资料设计类型的不同,可分为单因素方差分析和双因素方差分析。其中单因素方差分析是指对成组设计的多个样本均数比较,应采用完全随机设计的方差分析;双因素方差分析是指对随机组设计的多个样本均数比较,应采用配对组设计的方差分析。
两类方差分析的基本步骤相同,只是变异的分解方式不同,对成组设计的资料,总变异分解为组内变异和组间变异(随机误差),即:SS总=SS组间+SS组内,而对配队组设计的资料,总变异除了分解为处理组变异和随机误差外还包括配对组变异,即:SS总=SS处理+SS配对+SS误差。 整个方差分析的基本步骤如下:
1)建立检验假设;(检验的置信水平为0.05)
H0:多个样本总体均数相等;
H1:多个样本总体均数不相等或不全等。
2)计算检验统计量F值;
若计算统计量F大于临界值,则拒绝原假设H0;反之接受原假设H0.
3)确定P值并作出推断结果。
1.2.算法原理
方差分析主要是从质量因子的角度探讨因素的不同水平对实验指标影响的差异。一般来说,质量因子是可以人为控制的。方差分析根据资料设计类型的不同,可分为单因素方差分析和双因素方差分析。下面介绍两种情形下的因素方差分析。
1.2.1 单因素方差的计算
对于单因素方差的计算,现假设考虑因素只有一个A,它有a个水平,每个水平重复ni次,试验结果Y。当ni=n,i=1,,a时,试验为平衡的,否则称为不平衡的。
对单因素方差分析问题,可建立如下回归模型:
其中第一项是总均值,第二项是第i个水平的效应,第三项表示随机误差,且随机误差符合正态分布。
单因素方差分析表:
方差来源 | 自由度 | 平方和 | 均方 | F检验 |
组间方差 | a-1 |
![]() |
QA=SA/(a-1) | F=QA/Qe |
组内方差 | N-a |
![]() |
Qe=Se/(N-a) |
|
总和 | N-1 |
![]() |
|
|
在计算结果中,观测变量的总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,控制变量对其影响是显著的;反之,所占比例越小,则称控制变量的不同水平没有给观测变量带来显著性影响,观测值的变动是由随机因素引起的。
1.2.2 双因素方差分析的计算
对于双因素方差分析,又可分为未重复试验和重复试验两种模型。
1)第一种未重复试验模型的分析如下:
假设在试验中有两个独立因素A和B,它们同时会对最终结果Y发生影响,因素A有a个水平,因素B有b个水平,对每水平组和只试验一次(nij=1),则可建立如下模型:
其中第一项表示总均值,后面两项表示因素的效应,最后一项表示满足正态分布的误差项。
双因素方差分析表-未重复试验:
方差来源 | 自由度 | 平方和 | 均方 | F检验 |
因素A | a-1 |
![]() |
QA=SA/(a-1) | F=QA/Qe |
因素B | b-1 |
![]() |
QB=SB/(b-1) | FB=QB/Qe |
误差 | (a-1)(b-1) |
![]() |
Qe=Se/(a-1)(b-1) |
|
总和 | ab-1 |
![]() |
|
|
2)第二种重复试验模型的分析如下:
如果两个因素之间有交互作用,则需要对两个因素各水平的组合都作重复试验,以rij表示Ai和Bj的交互效应,则方差分析模型为:
这种情况下的方差分析表如下所示:
方差来源 | 自由度 | 平方和 | 均方 | F检验 |
因素A | a-1 |
![]() |
QA=SA/(a-1) | FA=QA/Qe/Qe |
因素B | b-1 |
![]() |
QB=SB/(b-1) | FB=QB/Qe |
交互效应 | (a-1)(b-1) |
![]() |
QAB=SAB/(a-1)(b-1) | FAB=QAB/Qe |
误差 | ab(c-1) |
![]() |
Qe=Se/ab(c-1) |
|
总和 | abc-1 |
![]() |
|
|
方差分析,又称变异数分析,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。
三相关应用方差分析用来研究一个控制变量的不同水平是否对观测变量产生了显著性影响,还能用于两组及多样本均数的比较;可广泛应用于经济学、生物学、产品质量管理等各种领域中。主要用于:均数差别的显著性检验;分离各有关因素并估计其对总变异的作用;分析因素间的交互作用;进行方差齐次检验。
方差分析对资料进行统计推断之前应该注意使用条件:
1)可比性。若资料中各组均数本身不具可比性则不适用方差分析。
2)正态性。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态分布后再进行方差分析。
3)方差齐次性。即若组间方差不齐则不适用方差分析。多个方差的齐性检验可用Bartlett法,它用卡方值作为检验统计量,结果判断需查阅卡方表。
四参考资料1.维基百科;
2.百度;
3.MBA智库百科(http://wiki.mbalib.com/)
4.马克威分析系统使用教程,www.tenly.com。
5.应用多元分析(第三版),王学民编著,上海财经大学出版社。
五实例示例数据为某职业病防治医院对33名石棉矿工中的石棉肺患者(分组为1)、可疑患者(2)及非患者(3)进行肺活量(L)的测定。利用单因素方差分析三组石棉矿工的用力肺活量有无差别。
分组情况 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 | 1 |
肺活量 | 1.8 | 1.4 | 1.5 | 2.1 | 1.9 | 1.7 | 1.8 | 1.9 | 1.8 | 1.9 | 1.8 |
分组情况 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 | 2 |
肺活量 | 1.8 | 2 | 1.3 | 2.1 | 2.1 | 2.6 | 2.5 | 2.3 | 2.4 | 2.5 | 2.4 |
分组情况 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 | 3 |
肺活量 | 2.9 | 3.2 | 2.7 | 3 | 3.4 | 3 | 3.4 | 3.3 | 3.5 | 2.8 | 2.7 |
对上述结果进行计算后得到的数据如下:
对肺活量三种分组的一些统计量:均值1=1.7818,均值2=2.1818,均值3=3.0818,总均值=2.3485
组间离差平方和=9.7533,组内离差平方和=2.6891;组间自由度=2,组内自由度=30;组间均方和=4.8767,组内均方和=0.0896;计算的统计量F=54.405,置信水平P值为P=0.00;从置信水平P值可以得到,分组数据的个体的肺活量有显著性差异。
六输入输出输入变量类型:要求数值型变量;注:建议分组变量为整型。
输出结果:变量的方差分析结果统计量,包括变量的组间、组内方差的平方和、自由度、均方以及F统计量、置信水平P值。
七相关条目正态性、方差齐性
八优缺点8.1.优点
可以一次检验多组样本,避免了t检验一次只能比较两组的缺陷。
8.2.缺点
只能反映出各组样本中存在的差异,但是哪一组样本存在差异,无法判定。