Web页面信息块的自动分割

被引：10

作者：

瞿有利

于浩

徐国伟

西野文人

机构：

[1] 富士通研究开发中心有限公司

[2] 株式会社富士通研究所

[3] 富士通研究开发中心有限公司北京

[4] 北京

[5] 日本川崎-

来源：

中文信息学报 | 2004年 / 01期

关键词：

计算机应用; 中文信息处理; Web页面; 信息提取; 信息块;

D O I：

暂无

中图分类号：

TP393.092 [];

学科分类号：

080402 ;

摘要：

随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用 ,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法 :首先通过创建Web页面结构化的HMTL分析树 ,然后根据包含有效文本量等确定包含信息块的子树 ,最后根据子树深度信息利用 2 -rankPAT算法进行分割。通过对BBS页面的信息块抽取实验 ,证明了该方法的有效性。

引用

页码：6 / 13

页数：8