基于双层决策的新闻网页正文精确抽取

被引:18
作者
胡国平
张巍
王仁华
机构
[1] 中国科学技术大学电子工程与信息科学系讯飞语音实验室
关键词
计算机应用; 中文信息处理; 信息抽取; 特征向量; 决策树; 正文抽取;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
本文提出了基于双层决策的新闻网页正文的精确抽取算法,双层决策是指对新闻网页正文所在区域的全局范围决策和对正文范围内每段文字是否确是正文的局部内容决策。首先根据实际应用的需要给出了新闻网页正文的严格界定,然后分析了新闻网页及其正文的特性,提出了基于双层决策的正文抽取策略,基于特征向量提取和决策树学习算法对上述双层决策进行了建模,并在国内10个主要新闻网站的1687个新闻页面上开展了模型训练和测试实验。实验结果表明,上述基于双层决策的方法能够精确地抽取出新闻网页的正文,最终正文抽取与人工标注不完全一致的网页比例仅为18.14%,比单纯局部正文内容决策的方法相对下降了29.85%,同时抽取误差率大于10%的网页比例更是仅为7.11%,满足了实际应用的需要。
引用
收藏
页码:1 / 9+103 +103
页数:10
相关论文
共 5 条
[1]   面向Internet的中文新词语检测 [J].
邹纲 ;
刘洋 ;
刘群 ;
孟遥 ;
于浩 ;
西野文人 ;
亢世勇 .
中文信息学报, 2004, (06) :1-9
[2]   基于统计的网页正文信息抽取方法的研究 [J].
孙承杰 ;
关毅 .
中文信息学报, 2004, (05) :17-22
[3]   基于互连网的术语定义获取系统 [J].
许勇 ;
荀恩东 ;
贾爱平 ;
宋柔 .
中文信息学报, 2004, (04) :37-43
[4]   基于Ontology的Web内容二阶段半自动提取方法 [J].
高军 ;
王腾蛟 ;
杨冬青 ;
唐世渭 .
计算机学报, 2004, (03) :310-318
[5]   基于样本实例的Web信息抽取 [J].
张绍华 ;
徐林昊 ;
杨文柱 ;
薛文玲 ;
李天柱 .
河北大学学报(自然科学版), 2001, (04) :431-437