统计,顾名思义即将信息统括起来进行计算的意思,它是对数据进行定量处理的理论与技术。统计分析,常指对收集到的有关数据资料进行整理归类并进行解释的过程。在整个统计分析的过程中,分析是最重要的一个环节,如果缺少这一步,会降低统计工作的作用。准确的说,没有统计分析,统计的工作就没有活力、没有发展,也就没有统计工作的意义。
采用统计分析方法进行研究,必须遵循以下几个统计学基本特征:(1)科学性;(2)直观性;(3)可重复性
统计分析方法按功能标准进行划分,可分为描述统计和推断统计。
描述统计是将数据整理、归纳,并将这种关系以图表形式展现;主要涉及数据的集中趋势、离散程度和相关强度,最常用的指标有均值、标准差和相关系数等统计量。最常用的算法有均值分析,频率分析,描述统计等。
推断统计是指用概率形式来决断数据之间是否存在某种关系及用样本统计值来推测总体特征的一种重要的统计方法;推断统计包括总体分布已知的总体参数估计和假设检验,总体分布未知的非参数检验。最常用的参数检验方法有Z检验、T检验,非参数检验的方法包括卡方检验、符号检验、秩和检验等。
统计分析方法很多,但基本方法是定量分析。然而仅仅定量分析还是不足以解决问题,所以应遵循一定的分析技巧,统计分析技巧可以按照“定性-定量-定性”的顺序,巧妙的将定量分析和定性分析结合。
描述性统计是指将调查样本中的包含的大量数据资料进行整理、概况和计算,是推断性统计的基础。
描述统计是使用一些基本的统计量表现数据的集中趋势,也可以根据事先设定的置信区间,得出置信区间内的上下限。该算法除了使用基本的统计指标如偏度,峰度,方差等来描述数据的离散程度,还可以用图形结构表示数据的离散程度。
描述性统计分析主要是对数据进行探索性统计分析,包括数据的最小值、最大值、均值、中位数、四分位数、均值置信区间、方差、标准差、标准误差、偏度和偏度标准误差、峰度和峰度标准误差等统计量;还可以用盒状图、茎叶图表示数据的特征。一些基本统计量的计算公式如下:
均值:
均值置信区间:
其中,且a是标准正态分布的上百分点,t是a上的t分布值。
中位数:
方差:
标准差:,标准误差:SE=s/W
偏度:
峰度:
5%截尾均值:
其中k1和k2满足下面条件:
, tc = 0.05W
另外如果k1+1=k2,则T=yk2。
三相关应用描述统计可以适用于能够收集到的定量数据的所有领域之中,其中广泛的应用于政府各部门、工商企业、医药行业的统计分析;同时它能提供有关产品、过程或质量管理体系的信息,也可用于管理。描述统计是以揭示数据分布特性的方式汇总并表达定量数据的方法,主要包括数据的频数分析,数据的集中趋势分析、数据离散程度分析、数据分布及一些基本的统计图形。通过图形表示,更易发现质量数据的分布状况、趋势走向的一些规律。
四参考资料1 贾俊平编著,统计学,4版,北京:中国人民大学出版社,2011
2 陈希孺.概率论与数理统计.合肥:中国科学技术大学出版社,1992
3 盛骤,谢式千,潘承毅:概率论与数理统计,第四版,北京:高等教育出版社,2008
4 何晓群编著,现代统计分析方法与应用.第二版,中国人民大学出版社2007
5 马克威分析系统使用教程,http://www.tenly.com
五实例示例数据为抽取的某小学五年级学生的期中考试英语成绩以及学生的身高、体重数据。以描述性统计方法分析学生的分数、身高、体重的集中趋势和离散程度(单位:cm,kg)
学号 | 分数 | 身高 | 体重 |
1 | 81 | 146 | 41 |
2 | 80 | 145 | 40 |
3 | 73 | 138 | 33 |
4 | 72 | 137 | 32 |
5 | 67 | 132 | 35 |
6 | 92 | 157 | 52 |
7 | 88 | 153 | 48 |
8 | 87 | 152 | 47 |
9 | 86 | 151 | 46 |
10 | 84 | 149 | 44 |
11 | 83 | 148 | 43 |
12 | 83 | 148 | 43 |
13 | 83 | 148 | 43 |
14 | 81 | 146 | 41 |
15 | 80 | 145 | 40 |
16 | 80 | 145 | 40 |
17 | 78 | 143 | 38 |
18 | 75 | 140 | 35 |
19 | 74 | 139 | 34 |
20 | 72 | 137 | 32 |
以学生分数为例,观察分数的集中趋势和离散程度
集中趋势:
分数 | 统计 | 标准误差 |
均值 | 79.95 | 1.4039 |
中位数 | 80.5 |
|
众数 | 80 |
|
最小值 | 67 |
|
最大值 | 92 |
|
5%截尾均值 | 80 |
|
95%置信上限 | 82.9 |
|
95%置信下限 | 77.1 |
|
总和 | 1.599 |
|
有效记录 | 20 |
|
缺失记录 | 3 |
|
离散程度:
分数 | 统计 | 标准误差 |
极差 | 25 |
|
方差 | 39.4184 |
|
标准差 | 6.2784 |
|
变异系数 | 0.0785 |
|
偏度 | -0.2020 | 0.5121 |
峰度 | -0.2876 | 0.9924 |
峰度 | -0.2876 | 0.9924 |
输入变量类型:整型、浮点型
输入数据尺度:标量型、有序型、名义型
输出结果:给出描述统计量,如均值、中位数、众数、最值和置信区间等
七相关条目统计量、均值、方程、偏度、峰度、最值
八优缺点优点:描述统计是以揭示数据分布特性的方式汇总并表达定量数据的方法,主要揭示出数据的频数分布,数据的集中趋势、数据的离散程度及一些基本的统计图形。通过图形表示,更易发现数据的分布状况、趋势走向。