您确定要删除吗?

取消
首页 算法大全 应用模型 分析软件 算法学院数据中心 关于本站
在线咨询
400-820-6981
意见反馈
返回顶部

缺失值填充

数据处理是指对数据(包含数值和非数值类型)进行分析和加工的技术过程;也就是对数据的采集、检索、加工、变换和传输,将数据转换为信息的过程。

数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。

计算机的数据处理是使用计算机收集、记录数据,并经过一个或若干个处理方式组合,最后输出的是各种文字和数字的表格和报表。数据处理主要包含11种处理方式:数据查询、数据计算、数据排序、缺失值填充、数据抽样、变量处理、数据合并、重新编码、数据重构、数据汇总、随机数生成。

算法描述

缺失值填充是针对带有缺失值的数据进行处理;因为有的分析算法在进行数据分析前要求数据是无缺失的;所以数据的缺失值填充是非常关键的一步,对后续的分析影响很大。

常用的数据缺失值填充的方法有:列均值填充、列中值填充、临近点均值法、列众数填充、线性插值填充、固定值填充等方法。

相关应用

缺失值填充主要目的是对数据进行补充,使能够用分析算法进一步的分析挖掘数据之中的规律和价值

参考资料

马克威分析系统使用教程,http://www.tenly.com

实例

示例数据为某小学三年级部分学生的体重数据(单位为:千克)

编号 体重
1 52
2 42
3 31
4 48
5 33
6 35
7 46

1)根据列均值填充法:

编号为4的学生体重=(编号1+2+3+5+6+7)/6=40

得到的结果为:

编号 体重
1 52
2 42
3 31
4 40

2)根据列中值填充法:

编号为4的学生体重=(编号3+5)/2=32

得到的结果为:

编号 体重
1 52
2 42
3 31
4 32

当然还有许多种其他的填充方法,这里就不一一介绍,根据实际的情况选取合适的算法进行计算,以便得到精确的结果。

输入输出

输入变量类型:数值型数据

输出结果:给出经过缺失值填充处理后的数据结果

相关条目

数据处理、中值填充、众数填充

优缺点

优点:让数据更完整,有利于进行数据统计分析。

缺点:填充的数据与真实数据存在偏差,对结果有可能产生影响。

确定