利用超链接信息改进网页爬行器的搜索策略

被引:7
作者
赫枫龄
左万利
机构
[1] 吉林大学计算机科学与技术学院,吉林大学计算机科学与技术学院长春 ,长春
关键词
爬行器; 网络搜索引擎; 宽度优先搜索; 超链接;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的。爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高。为此,给出了利用超链接信息改进网页爬行器搜索策略的算法。该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行。实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%。
引用
收藏
页码:59 / 63
页数:5
相关论文
共 2 条
[1]   新一代网络搜索引擎系统CHINAVIVI的实现 [J].
赫枫龄 ;
陶文学 ;
李凯 ;
周力 ;
左万利 .
吉林大学学报(理学版), 2003, (02) :192-195
[2]  
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)