基于语义分析的网络爬虫模型的研究

被引:1
作者
刘炜 [1 ]
张红云 [1 ]
熊前兴 [1 ]
机构
[1] 武汉理工大学计算机科学与技术系
关键词
领域知识集; 网络爬虫; 扩展元数据; 知网;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
针对传统通用网络信息采集系统自身固有的缺陷,根据语义分析的相关理论,本文提出了基于语义的网络爬虫的相关模型,该模型构建知识概念集合,并对其进行关键字切割与划分,生成能表达主题的主题关键词集合。结合中国《知网》的相关理论与技术,对传统抓取的网页在语义的角度进行分析,对已抓取的网页页面内容及其中链接的扩展元数据等相关信息进行分词及语法语义等相关处理,获取网页内容关键词集合及超链接的关键词集合,然后分别对获取的网页内容关键词与链接关键词进行与主体关键词集合采用语义分析算法进行语义相关性的判定,保存需要的网页,并预测及提取与主题相关的URL,从而提高网络资源信息采集相关率。
引用
收藏
页码:796 / 797
页数:2
相关论文
共 5 条
[1]   基于语义分析的主题信息采集系统的设计与实现 [J].
赵佳鹤 ;
王秀坤 ;
刘亚欣 .
计算机应用, 2007, (02) :406-408
[2]   基于主题的智能Web信息采集系统的研究与实现 [J].
李卫 ;
刘建毅 ;
何华灿 ;
王枞 .
计算机应用研究, 2006, (02) :163-166
[3]   聚焦爬虫技术研究综述 [J].
周立柱 ;
林玲 .
计算机应用, 2005, (09) :1965-1969
[4]   基于本体的信息检索模型研究 [J].
宋峻峰 ;
张维明 ;
肖卫东 ;
唐九阳 .
南京大学学报(自然科学版), 2005, (02) :189-197
[5]   基于主题的Web信息采集系统的设计与实现 [J].
李盛韬 ;
赵章界 ;
余智华 .
计算机工程, 2003, (17) :102-104