主题网络爬虫研究综述

被引:137
作者
刘金红
陆余良
机构
[1] 解放军电子工程学院网络系
关键词
主题网络爬虫; 信息检索; Web挖掘;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
首先给出了主题网络爬虫的定义和研究目标;然后系统分析了近年来国内外主题爬虫的研究方法和技术,包括基于文字内容的方法、基于超链分析的方法、基于分类器预测的方法以及其他主题爬行方法,并比较了各种方法优缺点;最后对未来的研究方向进行了展望。
引用
收藏
页码:26 / 29+47 +47
页数:5
相关论文
共 6 条
[1]   基于主题的智能Web信息采集系统的研究与实现 [J].
李卫 ;
刘建毅 ;
何华灿 ;
王枞 .
计算机应用研究, 2006, (02) :163-166
[2]   可在线增量自学习的聚焦爬行方法 [J].
傅向华 ;
冯博琴 ;
马兆丰 ;
何明 ;
不详 .
西安交通大学学报 , 2004, (06) :599-602
[3]   基于主题的Web信息采集系统的设计与实现 [J].
李盛韬 ;
赵章界 ;
余智华 .
计算机工程, 2003, (17) :102-104
[4]  
The anatomy of a large scale hypertexual Web search engine .2 BR IN S,PAGE L. Proc of the 7 th World Wide Web Conference . 1998
[5]  
Evaluating topic-driven Webcrawlers .2 MENCZER F,PANT C,RUIZ M E. Proc of SIGIR’01 . 2001
[6]  
Sizing the Internet .2 MURRAY B,MOORE A. . 2000