基于逻辑行和最大接纳距离的网页正文抽取

被引:5
作者
张霞亮 [1 ]
陈家骏 [2 ]
机构
[1] 南京大学软件学院
[2] 南京大学计算机软件新技术国家重点实验室
关键词
信息抽取; 网页正文; 逻辑行; 启发式规则; 最大接纳距离;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
网页正文抽取是很多互联网应用的基础工作和必须解决的问题。目前的主流方法是基于DOM树结构,此方法需要解析出网页的DOM树结构。对于目前互联网上的网页来源众多、结构众多的情形,基于DOM树的处理方法除了性能不足以外,还会遇到抽取精度上的问题。针对这些问题,该文提出了一个网页正文抽取的新方法,该方法不依赖DOM树,而是考虑人们编写网页的方式形成一些启发式规则,并结合相关的统计规律,以逻辑行为基本处理单位,基于最大接纳距离进行网页正文抽取。实验表明,论文的方法能够高效、高精度地抽取出网页正文。
引用
收藏
页码:125 / 128+147 +147
页数:5
相关论文
共 9 条
[1]   一种全自动生成网页信息抽取Wrapper的方法 [J].
梅雪 ;
程学旗 ;
郭岩 ;
张刚 ;
丁国栋 .
中文信息学报, 2008, (01) :22-29
[2]   基于FFT的网页正文提取算法研究与实现 [J].
李蕾 ;
王劲林 ;
白鹤 ;
胡晶晶 .
计算机工程与应用, 2007, (30) :148-151
[3]   基于分块的网页正文信息提取算法研究 [J].
黄文蓓 ;
杨静 ;
顾君忠 .
计算机应用, 2007, (S1) :24-26+30
[4]   基于标记窗的网页正文信息提取方法 [J].
赵欣欣 ;
索红光 ;
刘玉树 .
计算机应用研究, 2007, (03) :144-145+180
[5]   一种通用HTML网页主题信息提取方法 [J].
许文 ;
都云程 ;
李渝勤 ;
施水才 .
现代图书情报技术, 2007, (01) :40-43
[6]   基于双层决策的新闻网页正文精确抽取 [J].
胡国平 ;
张巍 ;
王仁华 .
中文信息学报, 2006, (06) :1-9+103
[7]   基于Web的新闻信息抽取 [J].
朱永盛 ;
武港山 .
计算机工程, 2006, (10) :74-76
[8]   基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[9]  
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)