基于双字耦合度的中文分词交叉歧义处理方法

被引：17

作者：

王思力

王斌

机构：

[1] 中国科学院计算技术研究所

来源：

中文信息学报 | 2007年 / 05期

关键词：

计算机应用; 中文信息处理; 中文分词; 双字耦合度; t-测试差;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

本文提出了一种利用双字耦合度和t-测试差解决中文分词中交叉歧义的方法:首先利用词典找出所有的交叉歧义,然后用双字耦合度和t-测试差的线性叠加值来判断各歧义位置是否该切分。实验结果表明,双字耦合度和t-测试差的结合要优于互信息和t-测试差的结合,因此,用双字耦合度和t-测试差的线性叠加值来消除交叉歧义是一种简单有效的方法。

引用

页码：14 / 17+30 +30

页数：5