一种通用HTML网页主题信息提取方法

被引：12

作者：

许文

都云程

李渝勤

施水才

机构：

[1] 北京信息科技大学中文信息处理研究中心

来源：

现代图书情报技术 | 2007年 / 01期

关键词：

DOM; 信息提取; 分块; 相关度;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。

引用

收藏

页码：40 / 43

页数：4

相关论文

共 2 条

[1] 模板化网页主题信息的提取方法 [J].

欧健文 ;

董守斌 ;

蔡斌 .

清华大学学报(自然科学版), 2005, (S1) :1743-1747

[2] 基于统计的网页正文信息抽取方法的研究 [J].

孙承杰 ;

关毅 .

中文信息学报, 2004, (05) :17-22