非参数检验是指在总体分布形式未知情况下,可以通过对样本进行检验,以考察总体的分布形式。这是因为在现实问题中,有时不能知道总体服从什么类型的分布,而按照经验或某种理论我们不能对总体进行一些假设,或仅能作一些非常一般性(例如连续分布、对称分布等)的假设,这时候仍用参数检验,其推断出来的结果显然不可信,甚至有可能是错的。所以,必须先对总体的分布做一定的检验,然后才能用参数检验对总体进行推断。
非参数检验的方法,对样本是否来自于正态总体不做严格的限制,而且计算简单;一般非参数检验包含卡方检验、符号检验、秩和检验等检验方法。
非参数检验适用于以下类型的资料:(1)等级资料(有序分类资料)。如疗效按治愈、显效、有效、无效分组的资料;(2)偏态分布资料。当观察值呈偏态或极度偏态分布,而又未经变量变换或虽经变换但仍未达到正态或近似正态分布;(3)分布不明的资料。如新指标分布形态不明,小样本,但不趋向正态分布资料;(4)各组方差明显不齐,且不易变换达到齐性;(5)组内个别观察值偏离过大的资料。(6)开口分组资料。数据分组某一端或两端无明确数值的资料,只给出一个下限或上限,而没有具体数值,如大于等于60岁等。
非参数检验的特点:(1)主要优点是不受总体分布的限制,适用范围广;(2)对适宜用参数统计检验的资料,若用非参数检验处理,会损失部分信息,降低统计检验效率,即犯第二类错误的概率比参数检验大;(3)对于适合参数统计检验条件的资料或变量变换后适合于参数统计检验,最好使用参数检验。当资料不具备用参数检验的条件时,非参数检验是很有效的分析方法。
1.1 算法摘要
秩和检验用来检验两个不成对数据样本的差异性。作法是:建立原假设H0和备择假设H1;将两组数据依次按从小到大的次序(秩号)排列成表,如果有两个及两个以上的数据,则取秩号平均数作为其秩;取样本容量小的一组(样本容量相同时,取平均数小的一组),其数据个数记为n1,另一组数据个数记为n2,将样本容量小的一组所对应的秩相加称为该组的秩和。
1.2 算法原理
1.2.1假设中的等价问题
设有两个连续总体,他们的概率密度函数分别为f1(x)和f2(x),且两者都是未知的。现已知f1(x)=f2(x-a),a为未知常数,做以下假设:
H0:a=0, H1:a<0
H0:a=0, H1:a>0
H0:a=0, H1:a≠0
又假设两个总体均值存在,分别记为u1和u2,由于f1和f2最多只差一个平移,则有u2=u1-a。此时,上述的假设就等价于:
H0: u1= u2, H1: u1< u2
H0: u1= u2, H1: u1> u2
H0: u1= u2, H1: u1≠u2
1.2.2秩的定义
设X为一总体,将容量为n的样本观察值按从小到大的次序编号排列成:X(1)<X(2)<......<X(i),则称X(i)的秩为i,其中i=1,2,…,n。
下面举例说明:假设某组学生的体重为:34,39,41,28,33;求33的秩?求解过程为:排列数据28<33<34<39<41,故33的秩为2。
如果在排列大小时出现了相同大小的观察值,则其秩的定义为足标的平均值。如:抽得到样本观察值按次序排成0,1,1,1,2,3,3。则3个1的秩均为:(2+3+4)/3=3;两个3的秩均为:(6+7)/2=6.5
1.2.3秩和的定义
假设1,2两个总体分别抽取容量为n1,n2的样本,且设两个样本独立。这里假定n1≠n2。我们将这n1+n2个观察值放在一起,按自小到大的次序排列,求出每个观察值的秩,然后将属于第一个总体的样本观察值的秩相加,并记为R1,称为第一样本的秩和,其余的观察值的秩和总计为R2,称为第二样本的秩和。显然,R1和R2是离散型随机变量,且有R1+R2=0.5(n1+n2)(n1+n2+1)
1.2.4秩和检验的方法
(1)两个样本的容量均小于10的检验方法
检验的步骤:
第一步:将两个样本数据混合并由小到大进行等级排列(最小的数据秩次编为1,最大的数据秩次编为n1+n2);
第二步:把容量较小的样本中各数据的等级相加,即为秩和,用T表示;
第三步:把T值与秩和检验表中某显著性水平下的临界值相比较,如果T1<T<T2,则接受H0:f1(x)=f2(x),认为两样本差异不显著;如果T<T1或T>T2则拒绝原假设H0,接受H1:f1(x) ≠ f2(x),认为两个总体分布有显著性差异。
(2)两个样本的容量均大于10的检验方法
当两个样本容量都大于10时,秩和T的分布接近于正态分布,因此可以用Z检验,其基本公式为:
三算法背景秩和检验最早是由威尔克松(Frank Wilcoxon)提出的,用来检验两个样本数据的差异;后来曼-惠特尼将秩和检验应用到两个样本(n1和n2)不相等的情况,因而也称曼-惠特尼U检验。这两种方法主要应用于比较两个独立样本的差异性检验。
三相关应用秩和检验能够应用于任何领域的数据。同时如果两个样本来自两个独立的非正态或者形态未知的总体,要检验两样本之间的差异是否显著,不应用参数检验中的T检验,而需采用秩和检验。
四参考资料1 盛骤等.概率论与数理统计.北京:高等教育出版社,2008
2 马克威分析系统使用教程,http://www.tenly.com
五实例1、两个小样本容量(n<10)的检验方法
示例数据为某年级随机抽取6名男生和8名女生的英语成绩,问该年级男女生的英语成绩是否存在显著性差异?
男 | 92 | 78 | 94 | 88 | 76 | 87 |
|
|
女 | 69 | 52 | 86 | 80 | 47 | 63 | 76 | 82 |
男秩次 | 13 | 7 | 14 | 12 | 5.5 | 11 |
|
|
女秩次 | 4 | 2 | 10 | 8 | 1 | 3 | 5.5 | 9 |
检验步骤:
(1)建立假设:
H0:男女生的英语成绩不存在显著性差异
H1:男女生的英语成绩存在显著性差异
(2)编排秩次,求秩和:
T=13+7+14+12+5.5+11=62.5
(3)统计推断:根据n1=6,n2=8,a=0.05;查得秩和表T的上下限分别为T2=61和T1=29,则T=62.5>T2=61。则拒绝原假设H0,接受H1,认为男女生的英语成绩有显著性的差异。
2、两个两本容量较大(n>10)的检验方法
示例数据为某高校演讲比赛随机抽取两组学生的比赛成绩,问两组成绩是否有显著性差异?
一组 | 74 | 68 | 86 | 90 | 75 | 78 | 81 | 72 | 64 | 76 | 79 | 77 |
|
|
二组 | 80 | 77 | 69 | 86 | 76 | 91 | 66 | 73 | 65 | 78 | 81 | 82 | 92 | 93 |
一组秩次 | 8 | 4 | 21.5 | 23 | 9 | 14.5 | 18.5 | 6 | 1 | 10.5 | 16 | 12.5 |
|
|
二组秩次 | 17 | 12.5 | 5 | 21.5 | 10.5 | 24 | 3 | 7 | 2 | 14.5 | 18.5 | 20 | 25 | 26 |
检验步骤:
(1)建立假设:
H0:两组成绩不存在显著性差异
H1:两组成绩存在显著性差异
(2)编排秩次,求秩和:N1=12,N2=14,T=144.5,代入公式,有:
(3)统计推断:因为计算出来的Z的绝对值0.9<1.96,接受原假设H0,认为两组的演讲比赛成绩不存在显著性差异。
六输入输出输入变量变量表数据类型:整型、浮点型、布尔型
输入数据尺度:标量型、名义型、有序型
输出结果:取值的实际频数、观察比率、检验概率和显著性水平
七相关条目非参数检验、符号检验、卡方检验、Z统计量
八优缺点优点:(1)不受总体分布的限制,适用面广;(2)适用于分等级的数据及两端无确定值的数据;(3)易于理解,易于计算
缺点:符合参数检验的数据,用秩和检验,不能充分利用信息,检验功效低。