基于ID3分类算法的深度网络爬虫设计

被引:4
作者
王舜燕
李蕾
吴兵华
机构
[1] 武汉理工大学计算机科学与技术学院
关键词
网络爬虫; 深度网络; ID3算法;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
针对目前Web信息挖掘中存在的信息覆盖率较低的问题,对网络爬虫系统进行研究,提出一种针对深度网络的、基于ID3分类算法的Web页面收集方法。对Web页面的特征进行分析、处理和分类,提取包含深度网页的表单,通过自动提交这些表单来进行更深和更广的页面获取,实验表明该方法可以有效减少现有搜索引擎的盲区,改善搜索结果。
引用
收藏
页码:41 / 45
页数:5
相关论文
共 5 条
[1]   ID3算法应用研究 [J].
马瑜 ;
王有刚 .
信息技术, 2006, (12) :84-86
[2]   近几年国外隐蔽网络研究概述 [J].
娄卓男 ;
吴志强 .
图书情报工作, 2004, (01) :102-104
[3]   ID3算法的一种改进算法 [J].
曲开社 ;
成文丽 ;
王俊红 .
计算机工程与应用, 2003, (25) :104-107
[4]  
信息组织与检索[M]. 科学出版社 , 李国辉等编著, 2003
[5]  
The Deep Web. Cohen L. http://www.internettutorials.net/deepweb.html . 2008