基于双字耦合度的中文分词交叉歧义处理方法

被引:17
作者
王思力
王斌
机构
[1] 中国科学院计算技术研究所
关键词
计算机应用; 中文信息处理; 中文分词; 双字耦合度; t-测试差;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。
引用
收藏
页码:14 / 17+30 +30
页数:5
相关论文
共 3 条
[1]   基于无指导学习策略的无词表条件下的汉语自动分词 [J].
孙茂松 ;
肖明 ;
邹嘉彦 .
计算机学报, 2004, (06) :736-742
[2]   利用汉字二元语法关系解决汉语自动分词中的交集型歧义 [J].
孙茂松 ;
黄昌宁 ;
邹嘉彦 ;
陆方 ;
沈达阳 .
计算机研究与发展 , 1997, (05) :14-21
[3]  
现代汉语自动分析[M]. 北京语言文化大学出版社 , 陈小荷著, 2000