(1)以数据文件“马克威通用数据1.mkw”为例,演示网页重要性排名(PageRank)算法的操作。首先,在工作区内,打开建模分析工作流:“机器学习”→“PageRank”,接着选择数据源,然后设置算法的参数,最后点击运行按钮。
其中各类参数的含义为:
待选变量表:用于选入需要分析的变量,如果选入两个以上的变量,系统依次对每个变量给出其分析结果。
网页:该选项用于输入要分析的网页字段。
链接网页:该选项用于输入与网页链接的网页字段。
计算方法:提供两种计算方法
PageRank方法
Hits方法
选择“支付方式”和“快递方式”。具体的参数设置界面如下所示:
(2)输出结果
(3)结果说明
示例数据对链接网页进行网页重要性分析,并给出每个网页的Pagerank,给出等级最高的网页。
输入数据类型:字符型数据
PageRank算法最广为人知的作用是用于网页排名。但不仅仅只有这个用途,经过多年发展,它也可以应用于神经科学、交通网络等领域中;如用来评估不同大脑区域之间的联结和重要性,以及随着年龄的变化结果会如何改变;也用来预测城市交通流量和人员动向,这有助于提前预测现代交通可能出现的拥堵情况。
PageRank算法用于衡量特定网页相对于搜索引擎中的其它页面的重要程度,从而使得“等级/重要性”的网页会相对排在前面。需要注意的是PageRank重要性级别并不是线性增长的,而是类似于指数的关系。
PageRank算法基本思想:是让链接来“投票”,即网页的重要性由网页间的链接关系所决定的,算法是依靠网页间的链接结构来评价每个页面的等级和主要性,一个网页的PR值涉及到指向它的链接网页数,还涉及指向它的网页的其网页本身重要性。PageRank的计算时基于两个基本假设的,一个是数量假设,即如果一个页面接收到的其它网页的链接数量越多,该网页越重要;另一个是质量假设,即质量高的页面通过链接传递更高的权重。
在初始阶段,通过网页链接关系构建有向图,每个页面设置相同的PR值,通过PageRank的计算公式每次迭代更新当前页面的PR值,通过若干轮递归计算,会得到每个页面的最终的PR值。PageRank算法公式为:
其中是页面的PageRank值,是所有页面的数量,是不同的页面,是是链出页面的数量,是阻尼系数(任意时刻用户到达某页面后并继续向后浏览的概率),的取值范围为0到1。
输出结果:
给出各个网页的重要性排名数据
订购用户 | 订购时间 | 年限 | 运行环境 | 版本 |
1786****815 | 2023-03-10 14:06:42 | 1年 | Windows | 单机版 |
1521****342 | 2021-05-31 11:01:17 | 1年 | Windows | 单机版 |
1506****429 | 2021-03-08 15:45:29 | 1年 | Windows | 单机版 |
1881****108 | 2020-08-31 23:29:11 | 1年 | Windows | 单机版 |
1801****427 | 2019-02-18 19:07:33 | 1年 | Windows | 单机版 |
1864****834 | 2018-09-25 15:47:28 | 1年 | Windows | 单机版 |
1811****398 | 2018-07-23 13:08:21 | 1年 | Windows | 单机版 |
1580****630 | 2018-07-17 10:05:56 | 1年 | Windows | 单机版 |
1825****378 | 2018-06-29 11:09:33 | 1年 | Windows | 单机版 |
1598****800 | 2018-06-23 05:16:02 | 1年 | Windows | 单机版 |