数据处理是指对数据(包含数值和非数值类型)进行分析和加工的技术过程;也就是对数据的采集、检索、加工、变换和传输,将数据转换为信息的过程。
数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
计算机的数据处理是使用计算机收集、记录数据,并经过一个或若干个处理方式组合,最后输出的是各种文字和数字的表格和报表。数据处理主要包含11种处理方式:数据查询、数据计算、数据排序、缺失值填充、数据抽样、变量处理、数据合并、重新编码、数据重构、数据汇总、随机数生成。
重新编码用于把各式各样的数据进行分组,一般可分为对数值型变量和字符型变量编码。
对于数值型变量,有两种不同的编码方式:等距离划分和不等距离划分。1)等距离划分:根据指定的起点和步长对数据进行分组,并从0开始为各组编码。因为每组的组距相等,故称等距离划分法。2)不等距离划分:根据指定的上限和下限对数据进行分组,并根据新的编码值为数据编码。因为指定各组的组距一般不相等,故称不等距划分法。
对于字符型变量则需要指定编码规则进行编码。如需要用户自定义替代的新值。
三相关应用对数据进行重新编码,即用简单的数字对原始数据进行标记,便于统计分析。
四参考资料马克威分析系统使用教程,http://www.tenly.com
五实例示例为某银行对客户的不同信用评分数据;具体数据如下所示:
编号 | 性别 | 年龄 | 级别 | 信用评分 |
1 | 1 | 45 | 1 | 65.8 |
2 | 2 | 35 | 1 | 70.4 |
3 | 1 | 64 | 1 | 71.4 |
4 | 2 | 22 | 1 | 74 |
5 | 2 | 32 | 1 | 75.2 |
6 | 1 | 29 | 1 | 76.6 |
7 | 1 | 31 | 1 | 78.2 |
8 | 1 | 55 | 1 | 79.8 |
9 | 2 | 45 | 2 | 80.2 |
10 | 1 | 45 | 2 | 80.2 |
11 | 1 | 37 | 2 | 80.4 |
12 | 1 | 58 | 2 | 82.4 |
13 | 1 | 32 | 2 | 82.8 |
14 | 2 | 45 | 2 | 84.5 |
15 | 2 | 36 | 3 | 85.4 |
16 | 1 | 37 | 3 | 85.6 |
17 | 1 | 40 | 3 | 86.8 |
18 | 1 | 67 | 3 | 87.2 |
假设现在要对客户按年龄进行等距划分的重新编码,计算过程如下:设编码的初始点为10,步长间隔为10,故编号为1的顾客重新编码结果为:(45-10)/10=3.5;取整,即编号1的顾客重新编码为3。同理可计算其他客户,最终的结果为:
编号 | 性别 | 年龄 | 级别 | 信用评分 | 年龄重新编码 |
1 | 1 | 45 | 1 | 65.8 | 3 |
2 | 2 | 35 | 1 | 70.4 | 2 |
3 | 1 | 64 | 1 | 71.4 | 5 |
4 | 2 | 22 | 1 | 74 | 1 |
5 | 2 | 32 | 1 | 75.2 | 2 |
6 | 1 | 29 | 1 | 76.6 | 1 |
7 | 1 | 31 | 1 | 78.2 | 2 |
8 | 1 | 55 | 1 | 79.8 | 4 |
9 | 2 | 45 | 2 | 80.2 | 3 |
10 | 1 | 45 | 2 | 80.2 | 3 |
11 | 1 | 37 | 2 | 80.4 | 2 |
12 | 1 | 58 | 2 | 82.4 | 4 |
13 | 1 | 32 | 2 | 82.8 | 2 |
14 | 2 | 45 | 2 | 84.5 | 3 |
15 | 2 | 36 | 3 | 85.4 | 2 |
16 | 1 | 37 | 3 | 85.6 | 2 |
17 | 1 | 40 | 2 | 86.8 | 3 |
18 | 1 | 67 | 3 | 87.2 | 5 |
同理,可根据需要对其他变量进行重新编码,如对用户评分进行处理。
七相关条目编码方式、分组
八优缺点优点:数据的重新编码对数据重新分组特别有用,尤其是它用简单的数字对原始数据进行划分,非常便于进行统计分析。