共 2 条
一种通用HTML网页主题信息提取方法
被引:12
作者:
许文
都云程
李渝勤
施水才
机构:
[1] 北京信息科技大学中文信息处理研究中心
来源:
关键词:
DOM;
信息提取;
分块;
相关度;
D O I:
暂无
中图分类号:
TP393.092 [];
学科分类号:
080402 ;
摘要:
采用DOM规范,把HTML网页表示成树结构,对不同模板的HTML页面“主题”信息提取进行研究和分析,提出一种新的结点主题相关性判定方法,依据此方法判定出要抽取的主题内容,并删除无关内容,结果输出只含主题信息的HTML文档。
引用
收藏
页码:40 / 43
页数:4
相关论文