非参数检验是指在总体分布形式未知情况下,可以通过对样本进行检验,以考察总体的分布形式。这是因为在现实问题中,有时不能知道总体服从什么类型的分布,而按照经验或某种理论我们不能对总体进行一些假设,或仅能作一些非常一般性(例如连续分布、对称分布等)的假设,这时候仍用参数检验,其推断出来的结果显然不可信,甚至有可能是错的。所以,必须先对总体的分布做一定的检验,然后才能用参数检验对总体进行推断。
非参数检验的方法,对样本是否来自于正态总体不做严格的限制,而且计算简单;一般非参数检验包含卡方检验、符号检验、秩和检验等检验方法。
非参数检验适用于以下类型的资料:(1)等级资料(有序分类资料)。如疗效按治愈、显效、有效、无效分组的资料;(2)偏态分布资料。当观察值呈偏态或极度偏态分布,而又未经变量变换或虽经变换但仍未达到正态或近似正态分布;(3)分布不明的资料。如新指标分布形态不明,小样本,但不趋向正态分布资料;(4)各组方差明显不齐,且不易变换达到齐性;(5)组内个别观察值偏离过大的资料。(6)开口分组资料。数据分组某一端或两端无明确数值的资料,只给出一个下限或上限,而没有具体数值,如大于等于60岁等。
非参数检验的特点:(1)主要优点是不受总体分布的限制,适用范围广;(2)对适宜用参数统计检验的资料,若用非参数检验处理,会损失部分信息,降低统计检验效率,即犯第二类错误的概率比参数检验大;(3)对于适合参数统计检验条件的资料或变量变换后适合于参数统计检验,最好使用参数检验。当资料不具备用参数检验的条件时,非参数检验是很有效的分析方法。
1.1 算法摘要
相关样本的检验包含对两个相关样本的检验和对多个相关样本的检验。可以用来检验两个或多个相关样本的总体分布是否存在显著性差异。
1.2 算法原理
1.2.1 两个相关样本检验
对两个相关样本的检验包括:威尔柯克森配对(Wilcoxon Matched-Pairs Sign-Rank)秩和检验、符号检验、麦克尼玛尔(McNemar)检验。
(1)威尔柯克森配对秩和检验的计算过程
1)计算两个样本对应元素的差,对绝对值序列中的非零值进行编秩,并记下正值、负值和零值的个数,并求出正秩和、负秩和及相应的平均秩和修正值;
2);
(2)麦克尼玛尔检验的计算过程(要求变量为二值)
1)统计频数并作出四格表,四格的编号依次为a,b,c,d;
2)如果,直接计算:
,其中;
否则,计算; 其中为卡方分布函数。
1.2.2 多个相关样本检验
对多个相关样本的检验最常用的方法包括:弗里德曼(Friedman)检验、肯德尔(Kendall)W检验、柯克伦(Cochran Q)Q检验。
(1)弗里德曼检验的计算过程(要求数据是定距的)
1)对矩阵的每一行进行编秩,即每一行从1到编秩,记下第行的修正值,求出;
2)求出第列的秩和,即把第列的秩相加,得到秩和,并求出平均秩,;
3)求F统计量、自由度以及置信水平P
;
自由度;;其中为卡方分布函数
(2)柯克伦Q检验的计算过程(要求数据为二值的)
1)求出第行的和,第列的和;
2)求出Q统计量、自由度以及置信水平P
自由度;;其中为卡方分布函数
(3)肯德尔W检验的计算过程
1)对矩阵的每一行进行编秩,即每一行从1到编秩,记下第行的修正值,求出;
2)出第列的秩和,即把第列的秩相加,得到秩和,并求出平均秩,;
3)求出W统计量、自由度以及置信水平
;自由度; 其中为卡方分布函数。
相关样本检验可以用来检验任意配对数据是否来自于同一个总体或者来自多个总体。能够应用到任何领域的数值型数据。
四参考资料1 相关样本检验—MBA智库百科
2 马克威分析系统使用教程,http://www.tenly.com
五实例1、两个相关样本检验
示例数据为某班级语文老师,为检验一种新的写作教育法是否有助于提高学生的作文成绩,随机抽取的10名学生,得到他们使用新的训练方法前后的作文最好成绩,分析这种新的训练方法是否显著有效?
使用前 | 0 | 78 | 87 | 67 | 77 | 80 | 56 | 78 | 86 | 78 |
使用后 | 90 | 77 | 90 | 70 | 80 | 90 | 64 | 87 | 95 | 90 |
以威尔柯克森配对秩和检验来分析使用新的训练方法前后是否有差异,经过计算得到结果如下:
样本配对 | Z | 渐近显著性(双侧) |
使用前-使用后 | -2.7099 | 0.0067 |
从检验的渐进显著性P=0.0067<0.05,拒绝原假设,认为训练前后有显著性差异,新的训练方法明显使学生的写作水平提高了。
2、多个相关样本检验
示例数据为市场调查人员想了解在入户访问中,调查人员的穿着是否影响被访者的合作态度。让一位调查人员分别穿西装、夹克、休闲装访问三组家庭,每组家庭有10户,其中1表示愿意接受访问,0表示拒绝接受访问。
组一 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 1 | 1 | 1 |
组二 | 0 | 1 | 1 | 0 | 1 | 1 | 0 | 0 | 1 | 0 |
组三 | 0 | 0 | 1 | 0 | 0 | 1 | 0 | 1 | 0 | 1 |
以肯德尔W检验对该例子进行推断,分析穿着是否会影响被访者的态度。得到的计算结果如下所示:
样本数 | W | 卡方值 | 自由度 | 渐近显著性 |
10 | 0.3 | 6 | 2 | 0.0498 |
从检验结果的渐进显著性P=0.0498<0.05,则拒绝原假设,认为穿着会对被访者的合作态度产生显著性影响。
六输入输出输入变量表数据类型:整型、浮点型、布尔型
输入数据尺度:标量型、名义型、有序型
输出结果:计算出数据的显著性水平,并与默认的置信水平比较
七相关条目相关样本、假设检验、统计量、置信水平
八优缺点优点:能够分析相关样本之间的假设检验,以样本数据推断总体数据的分布