数据处理是指对数据(包含数值和非数值类型)进行分析和加工的技术过程;也就是对数据的采集、检索、加工、变换和传输,将数据转换为信息的过程。
数据处理的基本目的是从大量的、杂乱无章的、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。
计算机的数据处理是使用计算机收集、记录数据,并经过一个或若干个处理方式组合,最后输出的是各种文字和数字的表格和报表。数据处理主要包含11种处理方式:数据查询、数据计算、数据排序、缺失值填充、数据抽样、变量处理、数据合并、重新编码、数据重构、数据汇总、随机数生成。
数据抽样是从总体样本数据中按一定的方法抽取部分的数据;能够实现对任意数据进行抽样。
数据抽样经常用到的算法有:取近似记录的百分之几;取前N个样本的抽样方法;系统抽样法,即每隔N条记录选取一条;按比例抽样等数据抽样方法。
三相关应用数据抽样的应用领域不限;如果原数据量太大,且有些数据重复或者分析时不太需要用到;则可以利用数据抽样算法,选择适量的数据进行分析。
四参考资料1 数据抽样—百度百科
2 马克威分析系统使用教程,http://www.tenly.com
五实例示例数据为某年上海市各区的人口数,人口密度及暂住人口数据。现要分析这些数据的规律,希望选取适量的数据进行分析。
地区 | 人口数 | 人口密度 | 暂住数 |
浦东新区 | 3274276 | 6264 | 1362726 |
闵行 | 2067612 | 5563 | 1181777 |
杨浦 | 1214846 | 20004 | 134225 |
闸北 | 827945 | 28296 | 132803 |
宝山 | 1302059 | 3135 | 471498 |
徐汇 | 1061120 | 19378 | 169298 |
长宁 | 754343 | 19696 | 143002 |
普陀 | 1155735 | 21079 | 292786 |
虹口 | 923784 | 39343 | 134225 |
松江 | 1305862 | 2159 | 763153 |
嘉定 | 1201177 | 2618 | 663246 |
黄浦 | 719071 | 57943 | 113463 |
青浦 | 939272 | 1390 | 252749 |
金山 | 773710 | 1320 | 252749 |
南汇 | 1176278 | 1711 | 442257 |
奉贤 | 908895 | 1322 | 393248 |
卢湾 | 373463 | 46393 | 61931 |
崇明 | 792084 | 761 | 94983 |
静安 | 346399 | 45459 | 36538 |
1)选取前5条记录,即得到如下数据:
地区 | 人口数 | 人口密度 | 暂住数 |
浦东新区 | 3274276 | 6264 | 1362726 |
闵行 | 2067612 | 5563 | 1181777 |
杨浦 | 1214846 | 20004 | 134225 |
闸北 | 827945 | 28296 | 132803 |
宝山 | 1302059 | 3135 | 471498 |
2)每隔三条记录选取一条,得到的数据如下:
地区 | 人口数 | 人口密度 | 暂住数 |
浦东新区 | 3274276 | 6264 | 1362726 |
宝山 | 1302059 | 3135 | 471498 |
虹口 | 923784 | 39343 | 134225 |
青浦 | 939272 | 1390 | 252749 |
卢湾 | 373463 | 46393 | 61931 |
其他的不同种抽样方法,可以按实际的应用数据需求类型为依据,选取合适的抽样方法。
六输入输出输入变量类型:任意类型数据
输出结果:给出经过抽样后的数据结果
七相关条目随机抽样、分层抽样
八优缺点优点:减少了数据记录,提升了分析速度。
缺点:容易丢失部分数据信息,影响结果的准确性。