Web页面信息块的自动分割

被引:10
作者
瞿有利
于浩
徐国伟
西野文人
机构
[1] 富士通研究开发中心有限公司
[2] 株式会社富士通研究所
[3] 富士通研究开发中心有限公司 北京
[4] 北京
[5] 日本川崎-
关键词
计算机应用; 中文信息处理; Web页面; 信息提取; 信息块;
D O I
暂无
中图分类号
TP393.092 [];
学科分类号
080402 ;
摘要
随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用 ,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法 :首先通过创建Web页面结构化的HMTL分析树 ,然后根据包含有效文本量等确定包含信息块的子树 ,最后根据子树深度信息利用 2 -rankPAT算法进行分割。通过对BBS页面的信息块抽取实验 ,证明了该方法的有效性。
引用
收藏
页码:6 / 13
页数:8
相关论文
共 1 条
[1]  
On-line construction of suffix trees[J] . E. Ukkonen.Algorithmica . 1995 (3)