非参数检验是指在总体分布形式未知情况下,可以通过对样本进行检验,以考察总体的分布形式。这是因为在现实问题中,有时不能知道总体服从什么类型的分布,而按照经验或某种理论我们不能对总体进行一些假设,或仅能作一些非常一般性(例如连续分布、对称分布等)的假设,这时候仍用参数检验,其推断出来的结果显然不可信,甚至有可能是错的。所以,必须先对总体的分布做一定的检验,然后才能用参数检验对总体进行推断。
非参数检验的方法,对样本是否来自于正态总体不做严格的限制,而且计算简单;一般非参数检验包含卡方检验、符号检验、秩和检验等检验方法。
非参数检验适用于以下类型的资料:(1)等级资料(有序分类资料)。如疗效按治愈、显效、有效、无效分组的资料;(2)偏态分布资料。当观察值呈偏态或极度偏态分布,而又未经变量变换或虽经变换但仍未达到正态或近似正态分布;(3)分布不明的资料。如新指标分布形态不明,小样本,但不趋向正态分布资料;(4)各组方差明显不齐,且不易变换达到齐性;(5)组内个别观察值偏离过大的资料。(6)开口分组资料。数据分组某一端或两端无明确数值的资料,只给出一个下限或上限,而没有具体数值,如大于等于60岁等。
非参数检验的特点:(1)主要优点是不受总体分布的限制,适用范围广;(2)对适宜用参数统计检验的资料,若用非参数检验处理,会损失部分信息,降低统计检验效率,即犯第二类错误的概率比参数检验大;(3)对于适合参数统计检验条件的资料或变量变换后适合于参数统计检验,最好使用参数检验。当资料不具备用参数检验的条件时,非参数检验是很有效的分析方法。
1.1算法摘要
卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。
其根本思想就是比较理论频数和实际频数的吻合程度或拟合优度问题。具体做法是:先按照已知总体的构成比分布计算样本中各类别的期望频数,然后求观测频数和期望频数的差值,最后计算出卡方统计量,利用卡方统计量求出P值,得出检验结论。
1.2算法原理
1.2.1 卡方检验的基本思想
基本思想是:首先假设H0成立,基于这个前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率p。如果p值很小,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较数据之间有显著差异;否则就不能拒绝无效假设,即不能认为样本所代表的实际情况和理论假设有差别。
1.2.2 卡方值的计算
卡方的值表示观察值与理论值之间的偏离程度,计算的大体思路如下:
(1)设A为某个类别的观测频数,E代表基于H0计算出来的期望频数,A与E的差值称为残差;
(2)对残差进行残差平方求和,显示观察值和理论值的偏离程度;
(3)残差是一个相对的概念,为了深刻刻画残差概念,人们又将残差平方和除以期望频数在求和,以观察频数与期望频数的差别。
三算法背景卡方检验可以表示为对残差平方和与期望频数之间的刻画;卡方统计量最初由英国统计学家Karl Pearson在1900年首次提出,目的是为了估计观测频数与期望频数的差别。
三相关应用卡方检验可以应用在分类资料统计推断中,包括:两个及多个样本构成率或两个及多个构成比比较的卡方检验;还能应用在分类资料的相关分析中。
卡方检验最常见的用途就是考察某无序分类变量不同水平值在两组或多组间的分布是否一致。其他的用途可以归纳为:
(1)检验某个连续变量的分布是否与某种理论分布一致。如是否符合正态分布、是否服从均匀分布、是否服从泊松分布等;
(2)检验某个分类变量各类的出现概率是否等于指定概率。如在36选7的彩票抽奖中,每个数字出现的概率是否各为1/36;掷硬币时,正反两面出现的概率是否均为0.5。
(3)检验某两个分类变量是否相互独立。如吸烟(二分类变量:是、否)是否与呼吸道疾病(二分类变量:是、否)有关;产品原料种类(多分类变量)是否与产品合格(二分类变量)有关。
(4)检验控制某种或某几种分类因素的作用以后,另两个分类变量是否相互独立。如在上例中,控制性别、年龄因素影响以后,吸烟是否和呼吸道疾病有关;控制产品加工工艺的影响后,产品原料类别是否与产品合格有关。
(5)检验某两种方法的结果是否一致。如采用两种诊断方法对同一批人进行诊断,其诊断结果是否一致;采用两种方法对客户进行价值类别预测,预测结果是否一致。
四参考资料1《应用多元分析(第三版)》,王学民编著,上海财经大学出版社
2《多元统计分析》,张润楚,科学出版社2006年版
五实例示例数据为某公司部门员工得到工龄,分析员工的年龄是否服从某种分布。
编号 | 工龄 |
1 | 16 |
2 | 8 |
3 | 7 |
4 | 16 |
5 | 15 |
6 | 14 |
7 | 12 |
8 | 12 |
9 | 13 |
10 | 10 |
11 | 14 |
12 | 12 |
13 | 8 |
利用卡方检验年龄是否满足正态分布,得到的结果如下:
检验类型 | 卡方值 | 自由度 | 渐进显著性 | 均值 | 方差 | λ |
正态分布 | 2.2308 | 5 | 0.8164 | 12.0769 | 3.0403 |
|
泊松分布 | 4.9142 | 6 | 0.5549 |
|
|
12.077 |
从中看出,因为显著性水平P=0.816,远大于0.05,即接受原假设,认为员工的工龄应该是服从正态分布的。
六输入输出输入变量变量表数据类型:整型、浮点型、布尔型
输入数据尺度:标量型、名义型、有序型
输出结果:给出卡方检验结果
七相关条目假设检验、残差、T检验、抽样
八优缺点优点:卡方检验事先不确定样本是否服从什么分布,只是根据样本数据的特点比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析,应用范围广、简便、易掌握;
缺点:检验效率较低。