(1)以数据文件“马克威通用数据3.mkw”为例,演示GSP序列模式算法的操作。首先,在工作区内,打开建模分析工作流:“机器学习”→“GSP序列模式”,接着选择数据源,然后设置算法的参数,最后点击运行按钮。
其中各类参数的含义为:
变量选择:设置模型的变量
事务字段:选择需要分析的字段,一个事务字段代表一个记录
子事务字段:属于事务字段的子集合
最小阈值:默认的数值为2
时间间隔:默认的时间最小间隔为1,最大间隔为5
设置好参数如下所示:
(2)输出结果
(3)结果说明
示例数据对所选变量进行序列模式分析,结果给出了挖掘的序列模式频繁项。
输入数据类型:输入数据类型:数值型数据。(要求输入的数据应满足序列的模式)
广义序列模式(简称GSP)算法采用冗余候选模式的减除策略和哈希树来实现候选模式的快速访存。GSP被广泛应用于顾客购买行为的分析、网络访问模式分析、科学实验的分析、疾病治疗的早期诊断、自然灾害的预测、DNA序列的破译等方面。
广义序列模式算法是Apriori类算法,采用冗余候选模式的剪除策略和特殊的数据结构-哈希树来实现候选模式的快速访存。
GSP算法描述主要包含以下三个步骤:
(1)扫描序列数据库,得到长度为1的序列模式,作为初始的种子集。
(2)根据长度为i的种子集,通过连接操作和修剪操作生成长度为i+1的候选序列模式,然后扫描序列数据库,计算每个候选序列模式的支持度,产生长度为i+1的序列模式,并将作为新的种子集。
(3)重复以上步骤,直到没有新的序列模式或新的候选序列模式产生为止。
GSP产生候选序列模式两个步骤:
(1)连接阶段:当去掉序列模式S1的第一个项目与去掉序列模式S2的最后一个项目所得到的序列相同,则可以将S1和S2进行连接,即将S2的最后一个项目添加到S1中去。
(2)剪枝阶段:若某候选序列模式的某个子集不是序列模式,则此候选序列模式不可能是序列模式,将它从候选序列模式中删除。
GSP算法需要重复的扫描序列数据库,会产生大量的候选集,当序列模式的长度较长的情况下,用GSP处理比较困难。
输出结果:
给出挖掘的所有满足条件的序列模式
订购用户 | 订购时间 | 年限 | 运行环境 | 版本 |
1786****815 | 2023-03-10 14:06:42 | 1年 | Windows | 单机版 |
1389****716 | 2020-05-26 13:30:17 | 1年 | Windows | 单机版 |
1380****495 | 2020-03-27 10:30:22 | 1年 | Windows | 单机版 |
1351****551 | 2019-02-21 18:19:00 | 1年 | Windows | 单机版 |
1801****427 | 2019-02-18 19:07:33 | 1年 | Windows | 单机版 |
1864****834 | 2018-09-25 15:47:28 | 1年 | Windows | 单机版 |
1811****398 | 2018-07-23 13:10:30 | 1年 | Windows | 单机版 |
1580****630 | 2018-07-17 10:05:56 | 1年 | Windows | 单机版 |
1563****947 | 2018-06-06 10:32:43 | 1年 | Windows | 单机版 |
1580****806 | 2018-01-25 14:18:11 | 1年 | Windows | 单机版 |