学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
利用超链接信息改进网页爬行器的搜索策略
被引:7
作者
:
赫枫龄
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院,吉林大学计算机科学与技术学院长春 ,长春
赫枫龄
左万利
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院,吉林大学计算机科学与技术学院长春 ,长春
左万利
机构
:
[1]
吉林大学计算机科学与技术学院,吉林大学计算机科学与技术学院长春 ,长春
来源
:
吉林大学学报(信息科学版)
|
2005年
/ 01期
关键词
:
爬行器;
网络搜索引擎;
宽度优先搜索;
超链接;
D O I
:
暂无
中图分类号
:
TP393.09 [];
学科分类号
:
080402 ;
摘要
:
网页爬行器在Web空间中爬行时,要面对如下两个问题:1)由于Internet上的信息量十分巨大,网络搜索引擎不可能包含整个Web网页;2)受到硬件资源的限制,它所能存储的网页是有限的。爬行器如果按照传统的宽度优先搜索策略在Web空间中爬行,它对所有的网页都采取一视同仁的态度,这样爬行的结果就导致了它所爬行回来的网页质量不高。为此,给出了利用超链接信息改进网页爬行器搜索策略的算法。该算法充分考虑了网页之间的超链接信息,克服了传统的宽度优先搜索策略的盲目性爬行。实验表明,利用该算法爬行得到的网页与某一特定主题相关的网页超过50%。
引用
收藏
页码:59 / 63
页数:5
相关论文
共 2 条
[1]
新一代网络搜索引擎系统CHINAVIVI的实现
[J].
赫枫龄
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
赫枫龄
;
陶文学
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
陶文学
;
李凯
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
李凯
;
周力
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
周力
;
左万利
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
左万利
.
吉林大学学报(理学版),
2003,
(02)
:192
-195
[2]
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)
←
1
→
共 2 条
[1]
新一代网络搜索引擎系统CHINAVIVI的实现
[J].
赫枫龄
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
赫枫龄
;
陶文学
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
陶文学
;
李凯
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
李凯
;
周力
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
周力
;
左万利
论文数:
0
引用数:
0
h-index:
0
机构:
吉林大学计算机科学与技术学院
左万利
.
吉林大学学报(理学版),
2003,
(02)
:192
-195
[2]
Mercator: A scalable, extensible Web crawler[J] . Allan Heydon,Marc Najork.World Wide Web . 1999 (4)
←
1
→