以数据文件“马克威通用数据1.mkw”为例,抽取前6条数据演示缺失值填充算法的操作。
(1)首先,在工作区,打开建模分析工作流“数据处理”→“缺失值处理”;
(2)接着选择数据源;
(3)然后设置算法的参数;
(4)最后双击运行按钮。
其中各类参数的含义为:
方法设定:选择缺失值的填充方法,以及必要的参数设置。修改填充方法后,需要通过点击“更改”来刷新数据。
对变量“用户评价”进行列均值的缺失值填充。具体的参数设置如下所示 :
(5)输出结果:
(6)结果说明:
给出的结果可以看出,缺失值的记录号为4,它的填充值是根据列均值计算得到的,其结果为65。如想得到不同的结果,可以用其他方法填充数据,并选取较好的结果进行分析。
输入变量类型:数值型数据
缺失值填充是针对带有缺失值的数据进行处理;在进行数据分析之前,这是非常关键的步骤,对后续的分析影响很大。
系统给出了九种缺失值的处理方法:
1)列均值填充:以缺失值所在列的均值填充缺失值。
2)列中值填充:以缺失值所在列的中值填充缺失值。
3)列取模填充:以缺失值所在列的模数填充缺失值。
4)临近点均值法:以缺失值前后2N个数据点的均值填充缺失值。
5)临近点中值法:以缺失值前后2N个数据点的中值填充缺失值。
6)列众数填充:以缺失值所在列的众数填充缺失值。
7)固定值填充:以用户指定的固定值填充缺失值。
8)线性插值法:以缺失值所在列的所有有效数据的线性序列值填充缺失值
9)线性预测法:以最小二乘法对缺失值进行线性拟合填充。
输出结果:
给出经过处理的数据结果
订购用户 | 订购时间 | 年限 | 运行环境 | 版本 |
1886****681 | 2021-08-11 11:46:36 | 1年 | Windows | 单机版 |
1881****083 | 2020-04-09 09:30:57 | 1年 | Windows | 单机版 |
1875****962 | 2020-03-30 20:46:49 | 1年 | Windows | 单机版 |
1305****178 | 2019-12-27 19:47:09 | 1年 | Windows | 单机版 |
1398****741 | 2017-12-29 09:10:30 | 1年 | Windows | 单机版 |
1833****513 | 2017-09-15 21:43:04 | 1年 | Windows | 单机版 |
1825****295 | 2017-08-11 13:14:13 | 1年 | Windows | 单机版 |
1556****001 | 2017-08-11 00:00:18 | 1年 | Windows | 单机版 |
1376****104 | 2017-06-14 09:36:37 | 1年 | Windows | 单机版 |
1516****535 | 2017-04-08 11:13:13 | 1年 | Windows | 单机版 |