一种通用HTML网页主题信息提取方法

被引:12
作者
许文
都云程
李渝勤
施水才
机构
[1] 北京信息科技大学中文信息处理研究中心
关键词
DOM; 信息提取; 分块; 相关度;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。
引用
收藏
页码:40 / 43
页数:4
相关论文
共 2 条
[1]   模板化网页主题信息的提取方法 [J].
欧健文 ;
董守斌 ;
蔡斌 .
清华大学学报(自然科学版), 2005, (S1) :1743-1747
[2]   基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22