学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
Web页面信息块的自动分割
被引:10
作者
:
瞿有利
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
瞿有利
于浩
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
于浩
徐国伟
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
徐国伟
西野文人
论文数:
0
引用数:
0
h-index:
0
机构:
富士通研究开发中心有限公司
西野文人
机构
:
[1]
富士通研究开发中心有限公司
[2]
株式会社富士通研究所
[3]
富士通研究开发中心有限公司 北京
[4]
北京
[5]
日本川崎-
来源
:
中文信息学报
|
2004年
/ 01期
关键词
:
计算机应用;
中文信息处理;
Web页面;
信息提取;
信息块;
D O I
:
暂无
中图分类号
:
TP393.092 [];
学科分类号
:
080402 ;
摘要
:
随着Internet的发展 ,Web页面数量的急剧增加 ,如何快速有效地获取信息变得越来越重要。一类Web页面往往包含着多个信息单元 ,它们在展现上排列紧凑、风格相似 ,在HTML语法上具有类似的模式 ,例如一个BBS页面上多个发言 ,每个信息被称为一个信息块。对于信息抽取、信息过滤等应用 ,需要首先将原始页面中分割为若干合适的信息块以便于后续的处理。本文提出了一种自动将Web页面分割为信息块的方法 :首先通过创建Web页面结构化的HMTL分析树 ,然后根据包含有效文本量等确定包含信息块的子树 ,最后根据子树深度信息利用 2 -rankPAT算法进行分割。通过对BBS页面的信息块抽取实验 ,证明了该方法的有效性。
引用
收藏
页码:6 / 13
页数:8
相关论文
共 1 条
[1]
On-line construction of suffix trees[J] . E. Ukkonen.Algorithmica . 1995 (3)
←
1
→
共 1 条
[1]
On-line construction of suffix trees[J] . E. Ukkonen.Algorithmica . 1995 (3)
←
1
→