共 3 条
基于网页结构树的Web信息抽取方法
被引:22
作者:
陈琼
苏文健
机构:
[1] 华南理工大学计算机科学与工程学院,华南理工大学计算机科学与工程学院广州,广州
来源:
基金:
广东省自然科学基金;
关键词:
信息抽取;
半结构;
网页结构树;
模式;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
提出了网页结构树提取算法及基于网页结构树的Web信息抽取方法。抽取信息时,在网页结构树中定位模式库中的待抽取信息,用模式库中的待抽取信息和网页结构树的叶结点对应的网页信息进行匹配。因而对网页信息的抽取,可以转化为对网页结构树的树叶结点信息的查找。实验证明,该方法具有较强的网页信息抽取能力。
引用
收藏
页码:54 / 55+140
+140
页数:3
相关论文