学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于逻辑行和最大接纳距离的网页正文抽取
被引:5
作者
:
论文数:
引用数:
h-index:
机构:
张霞亮
[
1
]
陈家骏
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学计算机软件新技术国家重点实验室
南京大学软件学院
陈家骏
[
2
]
机构
:
[1]
南京大学软件学院
[2]
南京大学计算机软件新技术国家重点实验室
来源
:
计算机工程与应用
|
2009年
/ 45卷
/ 25期
关键词
:
信息抽取;
网页正文;
逻辑行;
启发式规则;
最大接纳距离;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
网页正文抽取是很多互联网应用的基础工作和必须解决的问题。目前的主流方法是基于DOM树结构,此方法需要解析出网页的DOM树结构。对于目前互联网上的网页来源众多、结构众多的情形,基于DOM树的处理方法除了性能不足以外,还会遇到抽取精度上的问题。针对这些问题,该文提出了一个网页正文抽取的新方法,该方法不依赖DOM树,而是考虑人们编写网页的方式形成一些启发式规则,并结合相关的统计规律,以逻辑行为基本处理单位,基于最大接纳距离进行网页正文抽取。实验表明,论文的方法能够高效、高精度地抽取出网页正文。
引用
收藏
页码:125 / 128+147 +147
页数:5
相关论文
共 9 条
[1]
一种全自动生成网页信息抽取Wrapper的方法
[J].
梅雪
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
梅雪
;
论文数:
引用数:
h-index:
机构:
程学旗
;
郭岩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
郭岩
;
论文数:
引用数:
h-index:
机构:
张刚
;
论文数:
引用数:
h-index:
机构:
丁国栋
.
中文信息学报,
2008,
(01)
:22
-29
[2]
基于FFT的网页正文提取算法研究与实现
[J].
李蕾
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
李蕾
;
王劲林
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
王劲林
;
白鹤
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
白鹤
;
胡晶晶
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
胡晶晶
.
计算机工程与应用,
2007,
(30)
:148
-151
[3]
基于分块的网页正文信息提取算法研究
[J].
黄文蓓
论文数:
0
引用数:
0
h-index:
0
机构:
华东师范大学计算机科学技术系
黄文蓓
;
论文数:
引用数:
h-index:
机构:
杨静
;
论文数:
引用数:
h-index:
机构:
顾君忠
.
计算机应用,
2007,
(S1)
:24
-26+30
[4]
基于标记窗的网页正文信息提取方法
[J].
赵欣欣
论文数:
0
引用数:
0
h-index:
0
机构:
中国兵器工业计算机应用技术研究所
中国兵器工业计算机应用技术研究所
赵欣欣
;
论文数:
引用数:
h-index:
机构:
索红光
;
论文数:
引用数:
h-index:
机构:
刘玉树
.
计算机应用研究,
2007,
(03)
:144
-145+180
[5]
一种通用HTML网页主题信息提取方法
[J].
许文
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学中文信息处理研究中心
许文
;
论文数:
引用数:
h-index:
机构:
都云程
;
李渝勤
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学中文信息处理研究中心
李渝勤
;
论文数:
引用数:
h-index:
机构:
施水才
.
现代图书情报技术,
2007,
(01)
:40
-43
[6]
基于双层决策的新闻网页正文精确抽取
[J].
论文数:
引用数:
h-index:
机构:
胡国平
;
论文数:
引用数:
h-index:
机构:
张巍
;
论文数:
引用数:
h-index:
机构:
王仁华
.
中文信息学报,
2006,
(06)
:1
-9+103
[7]
基于Web的新闻信息抽取
[J].
论文数:
引用数:
h-index:
机构:
朱永盛
;
武港山
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学计算机科学与技术系
南京大学计算机软件新技术国家重点实验室
武港山
.
计算机工程,
2006,
(10)
:74
-76
[8]
基于统计的网页正文信息抽取方法的研究
[J].
孙承杰
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机学院
孙承杰
;
关毅
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机学院
关毅
.
中文信息学报,
2004,
(05)
:17
-22
[9]
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)
←
1
→
共 9 条
[1]
一种全自动生成网页信息抽取Wrapper的方法
[J].
梅雪
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
梅雪
;
论文数:
引用数:
h-index:
机构:
程学旗
;
郭岩
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所
郭岩
;
论文数:
引用数:
h-index:
机构:
张刚
;
论文数:
引用数:
h-index:
机构:
丁国栋
.
中文信息学报,
2008,
(01)
:22
-29
[2]
基于FFT的网页正文提取算法研究与实现
[J].
李蕾
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
李蕾
;
王劲林
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
王劲林
;
白鹤
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
白鹤
;
胡晶晶
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院声学研究所DSP中心
胡晶晶
.
计算机工程与应用,
2007,
(30)
:148
-151
[3]
基于分块的网页正文信息提取算法研究
[J].
黄文蓓
论文数:
0
引用数:
0
h-index:
0
机构:
华东师范大学计算机科学技术系
黄文蓓
;
论文数:
引用数:
h-index:
机构:
杨静
;
论文数:
引用数:
h-index:
机构:
顾君忠
.
计算机应用,
2007,
(S1)
:24
-26+30
[4]
基于标记窗的网页正文信息提取方法
[J].
赵欣欣
论文数:
0
引用数:
0
h-index:
0
机构:
中国兵器工业计算机应用技术研究所
中国兵器工业计算机应用技术研究所
赵欣欣
;
论文数:
引用数:
h-index:
机构:
索红光
;
论文数:
引用数:
h-index:
机构:
刘玉树
.
计算机应用研究,
2007,
(03)
:144
-145+180
[5]
一种通用HTML网页主题信息提取方法
[J].
许文
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学中文信息处理研究中心
许文
;
论文数:
引用数:
h-index:
机构:
都云程
;
李渝勤
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学中文信息处理研究中心
李渝勤
;
论文数:
引用数:
h-index:
机构:
施水才
.
现代图书情报技术,
2007,
(01)
:40
-43
[6]
基于双层决策的新闻网页正文精确抽取
[J].
论文数:
引用数:
h-index:
机构:
胡国平
;
论文数:
引用数:
h-index:
机构:
张巍
;
论文数:
引用数:
h-index:
机构:
王仁华
.
中文信息学报,
2006,
(06)
:1
-9+103
[7]
基于Web的新闻信息抽取
[J].
论文数:
引用数:
h-index:
机构:
朱永盛
;
武港山
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学计算机科学与技术系
南京大学计算机软件新技术国家重点实验室
武港山
.
计算机工程,
2006,
(10)
:74
-76
[8]
基于统计的网页正文信息抽取方法的研究
[J].
孙承杰
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机学院
孙承杰
;
关毅
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机学院
关毅
.
中文信息学报,
2004,
(05)
:17
-22
[9]
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)
←
1
→