统计,顾名思义即将信息统括起来进行计算的意思,它是对数据进行定量处理的理论与技术。统计分析,常指对收集到的有关数据资料进行整理归类并进行解释的过程。在整个统计分析的过程中,分析是最重要的一个环节,如果缺少这一步,会降低统计工作的作用。准确的说,没有统计分析,统计的工作就没有活力、没有发展,也就没有统计工作的意义。
采用统计分析方法进行研究,必须遵循以下几个统计学基本特征:(1)科学性;(2)直观性;(3)可重复性
统计分析方法按功能标准进行划分,可分为描述统计和推断统计。
描述统计是将数据整理、归纳,并将这种关系以图表形式展现;主要涉及数据的集中趋势、离散程度和相关强度,最常用的指标有均值、标准差和相关系数等统计量。最常用的算法有均值分析,频率分析,描述统计等。
推断统计是指用概率形式来决断数据之间是否存在某种关系及用样本统计值来推测总体特征的一种重要的统计方法;推断统计包括总体分布已知的总体参数估计和假设检验,总体分布未知的非参数检验。最常用的参数检验方法有Z检验、T检验,非参数检验的方法包括卡方检验、符号检验、秩和检验等。
统计分析方法很多,但基本方法是定量分析。然而仅仅定量分析还是不足以解决问题,所以应遵循一定的分析技巧,统计分析技巧可以按照“定性-定量-定性”的顺序,巧妙的将定量分析和定性分析结合。
均值分析是指计算指定变量的综合描述统计量,包括反映总体特征和离散态势两部分的统计量,且对于所有的描述统计量均按指定变量的取值分组计算。该算法可以通过样本的均值来反应总体特征。
均值分析是描述数据基本特征的重要分析方法,常用的对各类统计量的计算公式分别为:
记录数或权重和:,总和:
均值: ,最大值:
,最小值:
极差:,
,
方差: ,标准差:
,均值标准误:
1967年,埃利斯·奥特开发了一个程序,目的是为了使非统计学家更容易理解方差分析;最初的均值分析是一种诊断工业,分析各因素固定水平下实验结果的统计程序。
1973年,爱德华·施林对均值分析进行了扩展,使均值分析能够用于非正态分布以及不适用二项分布的数据分析计算。
三相关应用广泛应用于教育、工商、政府、企业、金融、医药等行业的统计分析;同时也适用于其他领域的数值型数据分析。通过均值分析可以得到数据的有效记录数、最大值、最小值、总和、平均值、均值标准误差等统计量。
四参考资料1 贾俊平编著,统计学,4版,北京:中国人民大学出版社,2011
2 陈希孺.概率论与数理统计.合肥:中国科学技术大学出版社,1992
3 盛骤,谢式千,潘承毅:概率论与数理统计,第四版,北京:高等教育出版社,2008
4 何晓群编著,现代统计分析方法与应用.第二版,中国人民大学出版社2007
5 马克威分析系统使用教程,http://www.tenly.com
五实例示例数据为抽取的某小学五年级20名学生的期中考试英语成绩及学生的身高、体重数据。以均值分析方法探索学生分数、身高、体重的基本特征(单位:cm,kg)
学号 | 分数 | 身高 | 体重 |
1 | 81 | 146 | 41 |
2 | 80 | 145 | 40 |
3 | 73 | 138 | 33 |
4 | 72 | 137 | 32 |
5 | 67 | 132 | 35 |
6 | 92 | 157 | 52 |
7 | 88 | 153 | 48 |
8 | 87 | 152 | 47 |
9 | 86 | 151 | 46 |
10 | 84 | 149 | 44 |
11 | 83 | 148 | 43 |
12 | 83 | 148 | 43 |
13 | 83 | 148 | 43 |
14 | 81 | 146 | 41 |
15 | 80 | 145 | 40 |
16 | 80 | 145 | 40 |
17 | 78 | 143 | 38 |
18 | 75 | 140 | 35 |
19 | 74 | 139 | 34 |
20 | 72 | 137 | 32 |
计算学生分数、身高和体重的均值分析结果:
类别 | 有效记录数 | 最大值 | 总和 | 平均值 | 标准误差 |
分数 | 20 | 92 | 1598 | 80 | 1.4039 |
身高 | 20 | 157 | 2898 | 145 | 1.3903 |
体重 | 20 | 52 | 806 | 40 | 1.2483 |
输入变量类型:整型、浮点型
输入数据尺度:标量型、有序型、名义型
输出结果:列出均值分析相关统计量的结果。
七相关条目统计量
八优缺点优点:该算法是通过样本的均值来反应总体特征分布趋势,是描述数据基本特征的重要分析方法。