基于词聚类特征的统计中文组块分析模型

被引:7
作者
孙广路 [1 ,2 ]
王晓龙 [1 ]
刘秉权 [1 ]
关毅 [1 ]
机构
[1] 哈尔滨工业大学计算机科学与技术学院
[2] 哈尔滨理工大学计算机科学与技术学院
关键词
词聚类; 信息熵; 中文组块分析; 句法功能;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出了一种基于信息熵的层次词聚类算法,并将该算法产生的词簇作为特征应用到中文组块分析模型中.词聚类算法基于信息熵的理论,利用中文组块语料库中的词及其组块标记作为基本信息,采用二元层次聚类的方法形成具有一定句法功能的词簇.在聚类过程中,设计了优化算法节省聚类时间.用词簇特征代替传统的词性特征应用到组块分析模型中,并引入名实体和仿词识别模块,在此基础上构建了基于最大熵马尔科夫模型的中文组块分析系统.实验表明,本文的算法提升了聚类效率,产生的词簇特征有效地改进了中文组块分析系统的性能.
引用
收藏
页码:2450 / 2453+2399 +2399
页数:5
相关论文
共 1 条
[1]   基于最大熵模型的汉语句子分析 [J].
徐延勇 ;
周献中 ;
井祥鹤 ;
郭忠伟 .
电子学报, 2003, (11) :1608-1612