谷歌搜索引擎HillTop算法

手册/FAQ (460) 2015-10-23 13:58:10

      HillTop算法是谷歌搜索引擎对页面结果排序的核心算法。HillTop算法的意义在于对相同主题网站之间的链接价值与非相关主题网站链接价值进行判定,在等级页面基础上,不单以页面的权值判断,而进而要求网站主题的相关性来进行权威页面计算。从而以“权威”专家文件的链接来确定页面的行业可信度。

      HillTop算法的关键点:选择和索引专家页面和目标页面排序。检测主机从属关系 目的:由于从属的页面其会包含相同的信息,并且这些当把这些信息加权时增加页面的权重,所以把从属页面找出,用一种方法剔除:计算专家分数:HiIITop算法给每个候选的专家页面一个分数,能反映出包含查询关键词的关键短语的数量和质量,及这些短语与查询的匹配程度。选出来的专家页面,他们指向的页面称为目标页面。一个目标页面最起码要被两个非附属的专家页面所指向,计算目标页面的得分既要反映链向他的专家页面数量和相关性,也要反映限制指向他的链接的关键短语的相关性。基于“专家”文档的HillTop算法最大的难点是第一次“专家文档”的筛选。

      网络的本质就是超链接,利用它可以极大地提高检索结果的质量,基于超链接的思想有PageRank算法还有其他的如HITS算法等,其中以PageRank最为著名。PageRank算法基于权威页面总是指向别的权威页面的假设,为每一个页面计算独立于查询的权威分数,但是PageRank算法不能靠自身来区分一般意义的权威页面和查询相关的权威页面。1999与2000年,Bharat与其谷歌团队开发出来的HillTop算法克服了PageRank算法的这一缺陷,进一步将排名比重放在网页以外的非人为能够操作的因素上。HillTop算法的指导思想与PageRank是一致的,即通过反向链接的质量来确定搜索结果的排序权重,PageRank算法通过指向某一页面的链接数来确定该页面的重要性。

      HillTop算法通过用户在查询框中输入的查询关键词来决定某一页面的相关性与重要性。HillTop算法认为只计算具有来自相同主题的相关文档链接对于搜索着的价值会更大。这种对主题有影响的文档称之为“专家文档”,而只有从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。

      HillTop算法与谷歌页面等级算法、页面相关性算法相结合对网站质量和关键字排名进行分析,从而得出了排名的重要因素:相关性因素(页面因素),页面等级得分、行业得分(权威页面)。

HillTop 算法执行过程:以该关键词进行一次普通查询找专家文档“文集”。“专家文档”的定义有严格标准,因该“文集”应是数量上易于管理的一组网页。从返回的专家列表中把成员站点(来自同一个域,或域相同而后缀不同的站点)和镜象站点去掉。根据所获得的上述专家文档对其投票的数量和质量,网页被分配以一个“局部分数”(LocalScorc)。然后按网页的“局部分数”进行排名。

“旧”Google排名公式={(1-d)+a (RS)} * {(1-e)+b (PR * fb)}

“新”Google排名公式={(1-d)+a (RS)} * {(1-e)+b (PR * fb)} *{(1-f+c (LS))

相关性得分:基于网页标题(Title)。元标识(Meta tags),正文标题(Headlines),正文(Body URL,图片Alt文字,锚文字(Anchor Text)等元素中出现的关键词得出的分数。

PR= 页而等级:(基于链接至你网站的网页数量及其PR值得出的分数。原始公式为PR (A)=(1 -d)+ d (PR (tl )/C (t1) +…+ PR (tn)/C (tn)),其中D为阻尼因子,一般设为0.85;公式描述为:A网页的其PR值等于链向该页面的所有链接页面的PR值分别除以各自的外部链接数量的总和。

LS=行业得分(LocalScore):根据专家文件计算得出的分数。

a,b,c=调节控制比重:Google用于精工调整查询结果。

d,e,f=阻尼控制:Google用于稍工调整查询结果。目前f值可能为零。

fb=因子基数:Google工具栏山所显示的页而等级得分范围从1到10,但它实质上并不是一个线性函数,而是一个指数树数函数。

总“排名”得分由三部分组成:相关性得分(页面因素),页而等级得分(非页面因素)和行业得分(非页而因素):

相关性得分(RS)=20%,页而等级值(PR)=40%,行业得分(LS)=40%

其中:

RS(相关性得分:页而相关度)一是所有SEO努力的转换结果;

PR(页而等级得分:外部链接度)一是所有建立链接的努力的转换结果;

LS(行业得分:专家文件链接度)一是得自专家文件的链接的转换结果;

从上述结果不难看出,页面优化的得分只占到20%, Google显然已将重心转至非页面因子上,而把排名控制权越来越多地从网站管理员手中夺回来。

HillTop算法用权威性来测评网页的质量,HillTop算法提供了一种衡量网页质量的客观方法,独立于语言、独立于内容,提高了搜索结果的相关性和质量,有效降低了人工操作排名的可能性。

 

THE END