选择数据文件“马克威通用数据1.mkw”,演示选择变量训练及应用等过程。其它的模型系数检验、模型残差检验和模型稳定性检验,可分别检验回归方程中的变量系数、残差和参数稳定性的准确性;同时对于输入变量的操作方式与此类似,可自行操作理解。
在工作区,打开建模分析工作流:“高级统计”→“回归分析”→“线性回归”:
1. 选择数据源;
2. 输入方式选择:选择 “选择变量”列表框;
3. 选择分析变量:将要分析的变量分别选入列表框;
4. 选择要分析显示的结果;
5. 点击运行节点。
(1)选择变量参数
选择“训练”功能;其中各参数变量的说明如下:
显著性:回归系数的显著性水平为0.05;若检验的P值小于0.05,则表示回归模型的系数显著;置信水平默认为0.95,可自己修改,置信水平越高,系数的可信度越高;
输出残差:会在输出结果中增加残差数据,并画出残差图;
变量显著性标准:自变量选入有三种方法,即:向前法、向后法、逐步法
选入P值:F检验统计量的P值小于或等于0.05时,变量选入方程,该建模方法仅在向前法和逐步法时有效;
剔除P值:F检验统计量的P值大于0.1时,剔除变量,该建模方法仅在向后法和逐步法时有效;
拟合值:输出模型的拟合结果。
设置好参数如下所示:
选择变量的输入方式:
选择自变量和因变量:
(2)结果显示
回归系数分析:
残差统计表:
相关系数表:
模型分析表:
(3)结果说明:
回归系数表中给出了因变量与自变量之间的回归方程:
总额=5.1075+5.1521*交易单价
其中回归系数分析表给出了各回归系数,回归系数标准误以及对应的t值、p值等,可以根据这些参数判断回归系数的显著性。
残差统计表给出了拟合值以及残差的最小值、最大值、平均值和标准差;相关系数表给出了自变量和因变量之间的相关系数、单边显著性以及协方差;模型分析表中给出了R平方、修正的R平方、AIC值、SC值。
(4)选择“应用”选项,界面切换到应用设置,添加刚才训练的模型路径,并匹配变量;其中各参数变量的说明如下:
模型来源:选择回归训练所建的模型;
变量设置:“选择变量”会显示变量供用户选择,“输入变量”可供用户修改变量,能做变量的运算等操作;
预测方法:“输入变量”时,包含静态和动态的两种预测方法。
模型的应用:
设置好参数如下所示:
(5)结果显示:
线性回归预测:
(6)结果说明:
点击运行按钮后,可以直观看到,购买总额的预测值,上图只截取了前7个预测值。
选定输入方式:
1)当输入方式为“选择变量”时,输入变量类型:整型、浮点型;
2)当输入方式为“输入变量”时,以字符串的方式依次输入模型的因变量、自变量(自变量支持对数据变量的运算)。
输入数据尺度:标量型
线性回归分析是用来分析两个及两个以上的变量相互之间因果关系的一种统计方法。线性回归分析根据分析变量间的相关关系,建立线性回归模型,可以对模型的残差、系数进行检验,验证模型的合理性,并可用所建模型进行预测。
线性回归分析的注意事项:样本量不得少于30条记录;自变量和因变量都应该是连续性数值型变量;对多分类线性回归问题,分类等级变量可用哑变量方法加以分解,其中哑变量的主要目的是把多分类自变量处理成近似于二分类变量的样子。
线性回归分析的回归方程的基本表达式为:
此方程在几何上表示一条直线,因此,称它为y 对x的回归直线,为截距,为斜率,线性回归分析主要对回归方程的斜率和截距进行估计;其估计的方程为:
,,其中:
线性回归模型的随机误差应该服从正态分布;且自变量之间没有多重共线性;随机误差项之间没有相关关联。对参数的估计可以使用最小二乘法进行估计。
请参考上文“用模型进行预测”主题
输出结果:
模型说明:说明数据源的名称,训练的变量名,训练的有效数据记录数和训练模型的保存路径;
线性回归方程:给出因变量与自变量的方程表达式;
模型分析:给出模型的拟合优度统计量;如修正后的R平方越接近1,且与R平方越接近,说明模型的拟合优度越高;
方差分析表:给出模型中自变量对因变量变异的影响,显著性小于0.05,模型中自变量对因变量产生的影响较大;
回归系数分析表:给出在95%的置信水平下,自变量及常数项对因变量的影响,概率检验值小于0.05,拒绝零假设,影响显著;
共线性诊断:输出线性回归的共线性诊断矩阵;
相关矩阵:输出线性回归的相关系数矩阵;
拟合值、残差表:输出模型拟合结果和拟合残差值表,并且绘制残差图。拟合值表示用线性回归的方法训练数据得到的值,残差说明训练的拟合值与真实值之间的差值;两者之间的差值越小,拟合程度越高,表明该线性回归方法处理数据越强大,结果越准确;
残差统计表:给出拟合值的最值,均值,标准离差和样本数等统计学特征;
拟合图:以图形的形式给出真实值和模型的拟合值以及预测值,从两条线的偏离程度我们可以估计模型的好坏,两条线越接近,则模型的拟和度越好,否则越差;
残差离散点:给出各数据对应的残差值的离散程度;
相关系数表:给出变量之间的互相关程度;其中相关系数越大,表明两者的相关性越好。下面给出相关系数解释:相关系数,表示不存在线性相关;当,表示为微弱相关;当,表示为低度相关;当,为显著相关;当,为高度相关;,为完全线性相关。
结果解释:
模型说明:说明数据源的名称,训练的变量名,训练的有效数据记录数;
线性回归预测:给出原始数据的预测值;预测值为自变量代入估计的回归模型得到的数值;
预测评价指标:给出预测值与真实值之间的各项指标;如均方根误差、平方绝对误差、方差比例和协方差比例等;
预测值与实际值对比图:通过两者曲线之间的偏离程度来直观反映模型的好坏,两者越接近,模型的拟合度越好,反之越差。
订购用户 | 订购时间 | 年限 | 运行环境 | 版本 |
1590****560 | 2023-04-28 10:14:35 | 1年 | Windows | 单机版 |
1898****868 | 2023-01-30 20:50:20 | 1年 | Windows | 单机版 |
1359****070 | 2022-11-18 15:10:26 | 1年 | Windows | 单机版 |
1781****525 | 2020-12-12 12:22:04 | 1年 | Windows | 单机版 |
1523****139 | 2019-03-04 22:52:36 | 1年 | Windows | 单机版 |
1570****389 | 2018-12-11 19:57:53 | 1年 | Windows | 单机版 |
1884****551 | 2018-09-17 11:11:31 | 1年 | Windows | 单机版 |
1886****092 | 2018-09-02 10:13:17 | 1年 | Windows | 单机版 |
1811****398 | 2018-07-23 13:52:02 | 1年 | Windows | 单机版 |
1522****286 | 2018-07-04 16:18:00 | 1年 | Windows | 单机版 |