可在线增量自学习的聚焦爬行方法

被引:19
作者
傅向华
冯博琴
马兆丰
何明
不详
机构
[1] 西安交通大学电子与信息工程学院
[2] 西安交通大学电子与信息工程学院 西安
[3] 西安
关键词
资源发现; 聚焦爬行; 在线学习; 半监督学习;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
将Web爬行看作执行序列动作的过程,结合改进的快速Q学习和半监督贝叶斯分类器,提出一种新的具有在线增量自学习能力的聚焦爬行方法.该方法从获取的页面中抽取特征文本,根据特征文本评估页面的主题相关性,预测链接的Q值,然后基于Q值过滤无关链接.当得到主题相关页面时产生回报,将回报沿链接链路反馈,更新链路上所有链接的Q值,并选择相应的特征文本作为训练样本,增量地改善主题评估器和Q值预测器.实验结果表明,该方法具有很快的自学习能力,获取的页面数目和精度均优于离线聚焦爬行方法,更符合Web资源发现的要求.
引用
收藏
页码:599 / 602
页数:4
相关论文
共 4 条
[1]   基于Bayes潜在语义模型的半监督Web挖掘 [J].
宫秀军 ;
史忠植 .
软件学报, 2002, (08) :1508-1514
[2]  
Incremental multi-step Q-learning[J] . Jing Peng,Ronald J. Williams.Machine Learning . 1996 (1)
[3]   Fast online Q(λ) [J].
Wierling, M ;
Schmidhuber, J .
MACHINE LEARNING, 1998, 33 (01) :105-115
[4]  
Focused crawling: a new approach to topic-specific Web resource discovery. Chakrabarti S M, van den Berg H, Dom B. Computer Networks . 1999