基于语义分析的网络爬虫模型的研究

被引：1

作者：

刘炜 ^{[1
]}

张红云 ^{[1
]}

熊前兴 ^{[1
]}

机构：

[1] 武汉理工大学计算机科学与技术系

来源：

科技信息 | 2008年 / 35期

关键词：

领域知识集; 网络爬虫; 扩展元数据; 知网;

D O I：

暂无

中图分类号：

TP391.3 [检索机];

学科分类号：

081203 ; 0835 ;

摘要：

针对传统通用网络信息采集系统自身固有的缺陷,根据语义分析的相关理论,本文提出了基于语义的网络爬虫的相关模型,该模型构建知识概念集合,并对其进行关键字切割与划分,生成能表达主题的主题关键词集合。结合中国《知网》的相关理论与技术,对传统抓取的网页在语义的角度进行分析,对已抓取的网页页面内容及其中链接的扩展元数据等相关信息进行分词及语法语义等相关处理,获取网页内容关键词集合及超链接的关键词集合,然后分别对获取的网页内容关键词与链接关键词进行与主体关键词集合采用语义分析算法进行语义相关性的判定,保存需要的网页,并预测及提取与主题相关的URL,从而提高网络资源信息采集相关率。

引用

页码：796 / 797

页数：2

共 5 条

[1] 基于语义分析的主题信息采集系统的设计与实现 [J].