[SEO算法]链接分析算法之HITS算法详解加示例
1999年,Jon Kleinberg 提出了HITS算法。作为几乎是与PageRank同一时期被提出的算法,HITS同样以更精确的搜索为目的,并到今天仍然是一个优秀的算法。HITS算法的全称是Hyperlink-Induced Topic Search。在HITS算法中,每个页面被赋予两个属性:hub属性和authority属性。同时,网页被分为两种:hub页面和authority页面。hub,中心的意思,所以hub页面指那些包罗了很多指向authority页面的链接的网页,好比国内的一些门户网站;authority页面则指那些包罗有本色性内容的网页。HITS算法的目的是:当用户盘问时,返回给用户高质量的authority页面。
二、算法道理:
很多算法都是成立在一些假设之上的,HITS算法也不例外。HITS算法基于下面两个假设:
Ⅰ、一个高质量的authority页面会被很多高质量的hub页面所指向。
Ⅱ、一个高质量的hub页面会指向很多高质量的authority页面。
什么叫“高质量”,这由每个页面的hub值和authority值确定。其确定要领为:
Ⅰ、页面hub值即是所有它指向的页面的authority值之和。
Ⅱ、页面authority值即是所有指向它的页面的hub值之和。
HITS衡量1个页面用A[i]和H[i]值暗示,A代表Authority权威值,H代表Hub枢纽值。
大意可理解为我指出的网页的权威值越高,我的Hub值越大。指向我的网页的Hub值越大,我的权威值越高。二者的变量彼此权衡。下面一张图直接明了:
如果理解了PageRank算法的道理,理解HITS应该很容易,最后功效的输出是按照页面的Authority权威值从高到低。
HITS算法描述:
三、实例分析:
如下有三个网页A,B,C及其链接关系:
结构邻接矩阵(Adjacent Matrix):
每个节点都有一个Hub分数和Authority分数,所以有一个Hub向量h和Authority向量a,向量的每个元素都初始化为1n√,此中n为节点数:
按如下方法交替更新h和a的值:
过程如下,直到任一向量不再变革(收敛):
需要注意的是每一步都需要对得到的向量进行归一化:
四、HITS算法特点:
该算法对付国内搜索引擎而言,具有必然的缺陷,也正是一些缺陷影响了搜索引擎功效排序。从而可以操作HITS算法的缺陷进行网站优化。好比由于HITS的主题漂移,即使你颁布的外链是不相关的,也会提升网页主题的保举度,从而提升网页关键词排名。其次,HITS算法由于是归属于链接分析算法,该算法不只仅是强调外部链接的重要性,同样也强调内部链接的重要性,如站内网页A信任度高,站内网页B包罗内页A的链接,也会间接性提升网页B的权重,这也是为何很多时候做排名优化的页面没有排名,反倒引起了没有优化的页面参预了排名。
五、HITS算法用途:
1、可以操作HITS枢纽页面与权威页面之间的关系提升排名卡位现象,好比排名第三页,可以操作该方法有少许排名提升;
2、可以操作HITS的主题漂移道理发动其他页面之间的排名,好比优化页面发动没有优化的页面排名。
六、HITS算法与PageRank算法对照
HITS算法和PageRank算法可以说是搜索引擎链接分析的两个最根本且最重要的算法。从以上对两个算法的介绍可以看出,两者无论是在根基观点模型还是计算思路以及技术实现细节都有很大的差别,下面对两者之间的差异进行逐一说明。
温馨提示: 本文由杰米博客推荐,转载请保留链接: https://www.jmwww.net/file/seo/12325.html