学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于分块的网页正文信息提取算法研究
被引:34
作者
:
黄文蓓
论文数:
0
引用数:
0
h-index:
0
机构:
华东师范大学计算机科学技术系
黄文蓓
论文数:
引用数:
h-index:
机构:
杨静
论文数:
引用数:
h-index:
机构:
顾君忠
机构
:
[1]
华东师范大学计算机科学技术系
来源
:
计算机应用
|
2007年
/ S1期
关键词
:
Web网页正文提取;
内容块;
标签树;
噪音;
D O I
:
暂无
中图分类号
:
TP301.6 [算法理论];
学科分类号
:
081202 ;
摘要
:
提出并实现了一种从Web页面获取正文的方法。该方法包括2个步骤:网页分块和对内容块的取舍。网页分块采用了一种自底向上分析标签树的自动分块算法,该算法比起以往方法更准确,并且对于复杂结构的页面分块效果更好。通过引入块的重要度和块特征分析每个内容块,来辨别出含有正文的内容块。实验结果表明本方法切实可行并且具有较高的准确性。
引用
收藏
页码:24 / 26+30 +30
页数:4
相关论文
共 3 条
[1]
基于分块的网页信息解析器的研究与设计
[J].
论文数:
引用数:
h-index:
机构:
于满泉
;
陈铁睿
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,中国科学院研究生院,北京,北京,中国科学院研究生院,北京,北京
陈铁睿
;
论文数:
引用数:
h-index:
机构:
许洪波
.
计算机应用,
2005,
(04)
:974
-976
[2]
基于统计的网页正文信息抽取方法的研究
[J].
孙承杰
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机学院
孙承杰
;
关毅
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机学院
关毅
.
中文信息学报,
2004,
(05)
:17
-22
[3]
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)
←
1
→
共 3 条
[1]
基于分块的网页信息解析器的研究与设计
[J].
论文数:
引用数:
h-index:
机构:
于满泉
;
陈铁睿
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所,中国科学院计算技术研究所,中国科学院计算技术研究所北京,中国科学院研究生院,北京,北京,中国科学院研究生院,北京,北京
陈铁睿
;
论文数:
引用数:
h-index:
机构:
许洪波
.
计算机应用,
2005,
(04)
:974
-976
[2]
基于统计的网页正文信息抽取方法的研究
[J].
孙承杰
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机学院
孙承杰
;
关毅
论文数:
0
引用数:
0
h-index:
0
机构:
哈尔滨工业大学计算机学院
关毅
.
中文信息学报,
2004,
(05)
:17
-22
[3]
一种HTML网页净化方法[J]. 张志刚,陈静,李晓明.情报学报. 2004 (04)
←
1
→