以数据文件“马克威通用数据1.mkw”为例,选取前面10条记录,演示重新编码算法的操作。
(1)首先,在工作区,打开建模分析工作流“数据处理”→“重新编码”算法到工作区内;
(2)接着选择数据源;
(3)然后设置算法的参数,双击运行节点;
(4)最后双击运行按钮。
其中各类参数的含义为:
重新编码字段:选择需要重新编码的字段;
输出字段:自定义输出字段的名称;
区间范围外的值处理:数值型可以以原值或空值替代,也可以直接删除记录;原变量为字符型数据需用户自定义替代的新值。
对“年龄”进行重新编码。具体的参数设置如下所示:
(5)输出结果:
(6)结果说明:
从结果看出:由于设置的起点为10,步长为10,所以10到20区间内的数据分组为1;20到30数据分组为2;同理,可以把其他的所有原始数据重新编码为新的数值。
输入变量类型:数值型、字符型
重新编码用于把各式各样的数据进行分组,并用简单的数字标识,便于统计分析。
根据不同的数据类型可采用不同的编码方式;对数值型数据:等距划分和不等距划分;对字符型数据:需指定编码规则进行编码。
等距划分:指定起点和步长对数据分组,且从0开始编码;
不等距划分:指定上下限对数据分组,且根据新的编码值为数据编码。
输出结果:
给出经过重新编码的数据结果
订购用户 | 订购时间 | 年限 | 运行环境 | 版本 |
1840****530 | 2023-10-21 23:01:22 | 1年 | Windows | 单机版 |
1305****178 | 2019-12-27 19:47:09 | 1年 | Windows | 单机版 |
1832****368 | 2019-01-21 09:51:17 | 1年 | Windows | 单机版 |
1398****741 | 2017-12-29 09:10:30 | 1年 | Windows | 单机版 |
1832****368 | 2017-10-16 09:57:43 | 1年 | Windows | 单机版 |
1556****001 | 2017-08-11 00:00:18 | 1年 | Windows | 单机版 |
1590****469 | 2017-05-25 15:33:50 | 1年 | Windows | 单机版 |
1864****834 | 2017-05-25 14:41:29 | 1年 | Windows | 单机版 |
1590****469 | 2017-05-25 14:40:21 | 1年 | Windows | 单机版 |
1397****925 | 2017-03-29 10:56:37 | 1年 | Windows | 单机版 |