基于逻辑行和最大接纳距离的网页正文抽取

被引：5

作者：

张霞亮 ^{[1
]}

陈家骏 ^{[2
]}

机构：

[1] 南京大学软件学院

[2] 南京大学计算机软件新技术国家重点实验室

来源：

计算机工程与应用 | 2009年 / 45卷 / 25期

关键词：

信息抽取; 网页正文; 逻辑行; 启发式规则; 最大接纳距离;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

网页正文抽取是很多互联网应用的基础工作和必须解决的问题。目前的主流方法是基于DOM树结构,此方法需要解析出网页的DOM树结构。对于目前互联网上的网页来源众多、结构众多的情形,基于DOM树的处理方法除了性能不足以外,还会遇到抽取精度上的问题。针对这些问题,该文提出了一个网页正文抽取的新方法,该方法不依赖DOM树,而是考虑人们编写网页的方式形成一些启发式规则,并结合相关的统计规律,以逻辑行为基本处理单位,基于最大接纳距离进行网页正文抽取。实验表明,论文的方法能够高效、高精度地抽取出网页正文。

引用

页码：125 / 128+147 +147

页数：5

共 9 条

[1] 一种全自动生成网页信息抽取Wrapper的方法 [J].