非参数检验是指在总体分布形式未知情况下,可以通过对样本进行检验,以考察总体的分布形式。这是因为在现实问题中,有时不能知道总体服从什么类型的分布,而按照经验或某种理论我们不能对总体进行一些假设,或仅能作一些非常一般性(例如连续分布、对称分布等)的假设,这时候仍用参数检验,其推断出来的结果显然不可信,甚至有可能是错的。所以,必须先对总体的分布做一定的检验,然后才能用参数检验对总体进行推断。
非参数检验的方法,对样本是否来自于正态总体不做严格的限制,而且计算简单;一般非参数检验包含卡方检验、符号检验、秩和检验等检验方法。
非参数检验适用于以下类型的资料:(1)等级资料(有序分类资料)。如疗效按治愈、显效、有效、无效分组的资料;(2)偏态分布资料。当观察值呈偏态或极度偏态分布,而又未经变量变换或虽经变换但仍未达到正态或近似正态分布;(3)分布不明的资料。如新指标分布形态不明,小样本,但不趋向正态分布资料;(4)各组方差明显不齐,且不易变换达到齐性;(5)组内个别观察值偏离过大的资料。(6)开口分组资料。数据分组某一端或两端无明确数值的资料,只给出一个下限或上限,而没有具体数值,如大于等于60岁等。
非参数检验的特点:(1)主要优点是不受总体分布的限制,适用范围广;(2)对适宜用参数统计检验的资料,若用非参数检验处理,会损失部分信息,降低统计检验效率,即犯第二类错误的概率比参数检验大;(3)对于适合参数统计检验条件的资料或变量变换后适合于参数统计检验,最好使用参数检验。当资料不具备用参数检验的条件时,非参数检验是很有效的分析方法。
1.1 算法摘要
单样本K-S检验是一种拟合优度的非参数检验方法,利用样本数据推断总体是否服从某一理论分布,适用于探索连续型随机变量的分布形态。
1.2 算法原理
对一个给定的样本数据,把数据按升序排列,对正态分布,求出样本的均值和标准差;对均匀分布,求出样本的最小值和最大值;对泊松分布和指数分布求出样本的均值。
计算过程可以归纳为以下步骤:
(1)根据求出的样本参数,作出相应的分布函数F(x)
正态分布:
均匀分布:;
泊松分布:;
指数分布:;
(2)作出样本的经验分布函数F*(x)
泊松分布:
正态、均匀、指数分布:
(3)其他统计量及P值的计算
正差,负差
,
绝对差;
;
应用领域不限,但适用于探索连续型随机变量的分布形态;对于不同的分布,有不同的数据要求:对正态分布和均匀分布,数据没什么要求;对泊松分布,输入大于等于0的整数;对于指数分布,数据要求是大于0的。
四参考资料1 盛骤等.概率论与数理统计.北京:高等教育出版社,2008
2 何晓群.现代统计分析方法与应用.北京:中国人民大学出版社,2007
3 马克威分析系统使用教程,http://www.tenly.com
五实例示例数据为收集到的21个关于一周岁儿童身高的样本数据,利用K-S方法检验周岁儿童的身高是否服从正态分布?单位:厘米
编号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
数据 | 64 | 68 | 68 | 68 | 69 | 70 | 70 | 70 | 71 | 71 | 71 |
编号 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 |
|
数据 | 71 | 71 | 72 | 73 | 74 | 75 | 76 | 78 | 79 | 80 |
|
经过计算得到样本数据的P值、D值和Z值;其中P=0.6808,D=0.1567,Z=0.7182。所以P值明显大于置信水平0.05,接受原假设,认为周岁儿童的身高服从正态分布。
六输入输出输入变量变量表数据类型:整型、浮点型、布尔型
输入数据尺度:标量型、名义型、有序型
输出结果:计算出显著性水平与设定的显著性水平比较;若小于设定的值则拒绝原假设,否则表明样本来自的总体与指定的理论分布无显著性差异。
七相关条目非参数检验、分布推断、置信水平、Z统计量
八优缺点优点:适用探索连续型随机变量的分布形态