基于分块的网页正文信息提取算法研究

被引：34

作者：

黄文蓓

杨静

顾君忠

机构：

[1] 华东师范大学计算机科学技术系

来源：

计算机应用 | 2007年 / S1期

关键词：

Web网页正文提取; 内容块; 标签树; 噪音;

D O I：

暂无

中图分类号：

TP301.6 [算法理论];

学科分类号：

081202 ;

摘要：

提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。

引用

页码：24 / 26+30 +30

页数：4