基于分块的网页正文信息提取算法研究

被引:34
作者
黄文蓓
杨静
顾君忠
机构
[1] 华东师范大学计算机科学技术系
关键词
Web网页正文提取; 内容块; 标签树; 噪音;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。
引用
收藏
页码:24 / 26+30 +30
页数:4
相关论文
共 3 条
[1]   基于分块的网页信息解析器的研究与设计 [J].
于满泉 ;
陈铁睿 ;
许洪波 .
计算机应用, 2005, (04) :974-976
[2]   基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[3]  
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)