数据处理是指对数据(包含数值和非数值类型)进行分析和加工的技术过程;也就是对数据的采集、检索、加工、变换和传输,将数据转换为信息的过程。
数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
计算机的数据处理是使用计算机收集、记录数据,并经过一个或若干个处理方式组合,最后输出的是各种文字和数字的表格和报表。数据处理主要包含11种处理方式:数据查询、数据计算、数据排序、缺失值填充、数据抽样、变量处理、数据合并、重新编码、数据重构、数据汇总、随机数生成。
变量处理可分为:修改变量类型、插入变量、删除变量等操作;修改变量类型是改变数据的类型。如整型变为浮点型,数值型变为非数值型数据等;插入变量是将用户自定义的变量插入到数据表中的指定位置;删除变量是删减已有的变量名及数据。
三相关应用变量设置的应用领域无限制,修改变量的类型以使数据适用于算法的要求,同时删除变量可以删去不需要的数据。
四参考资料1 数据处理—MBA智库百科
2 马克威分析系统使用教程,http://www.tenly.com
五实例示例数据为某小学三年级部分学生的体重、年龄数据(单位为:千克、岁数)
编号 | 体重 | 年龄 |
1 | 52 | 10 |
2 | 42 | 9 |
3 | 31 | 8 |
4 | 36 | 8 |
5 | 33 | 8 |
6 | 35 | 9 |
7 | 46 | 9 |
1)插入变量
插入学生的身高变量:
编号 | 体重 | 年龄 | 身高 |
1 | 52 | 10 |
|
2 | 42 | 9 |
|
3 | 31 | 8 | |
4 | 36 | 8 |
|
5 | 33 | 8 |
|
6 | 35 | 9 |
|
7 | 46 | 9 |
|
2)删除学生的年龄:
编号 | 体重 |
1 | 52 |
2 | 42 |
5 | 33 |
6 | 35 |
7 | 46 |
输入数据类型:无数据要求
输出结果:给出经过修改变量类型、插入变量和删除变量操作后的数据结果。
七相关条目修改变量类型、变量处理
八优缺点优点:对变量类型进行修改,便于数据处理;插入变量,可以更清晰全面地理解数据,增加数据分析维度,得到更全面的分析结果;删除变量,能简化分析维度。
缺点:插入变量后,增加了计算的复杂度和运行时间效率;删除变量后,会降低分析的准度和精度。