基于最大熵模型的中文阅读理解问题回答技术研究

被引:6
作者
李济洪 [1 ]
王瑞波 [2 ]
王凯华 [1 ]
李国臣 [2 ]
机构
[1] 山西大学计算中心
[2] 山西大学计算机与信息技术学院
关键词
计算机应用; 中文信息处理; 阅读理解; 问答系统; 最大熵模型; 主成分;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
该文基于山西大学自主开发的中文阅读理解语料库CRCC v1.1版,根据问句和候选答案句的对应关系,构建了词层面以及句法层面共计35个特征,基于最大熵模型对中文阅读理解问题回答进行了建模,在35个特征全部加入最大熵模型的情况下,测试集上得到了75.46%的HumSent准确率。考虑到特征取值之间的相关性对权重估计的影响,笔者先对35个特征观测值矩阵进行主成分降维,选择适当的主成分个数重构特征,然后再使用最大熵模型进行建模,在测试集上的HumSent准确率达到80.18%.实验结果表明,在阅读理解问答系统中,采用特征的主成分降维方法,能有效融合全部特征信息,回避了最大熵模型中特征筛选的过程,并且提高了阅读理解系统的准确率。
引用
收藏
页码:55 / 62
页数:8
相关论文
共 3 条
[1]   汉语基本块描述体系 [J].
周强 .
中文信息学报, 2007, (03) :21-27
[2]  
基于模式知识库的问题回答关键技术研究.[D].杜永萍.复旦大学.2005, 07
[3]  
最大熵方法及其在自然语言处理中的应用.[D].周雅倩.复旦大学.2005, 07