基于义原同现频率的汉语词义排歧方法

被引:25
作者
杨尔弘
张国清
张永奎
机构
[1] 山西大学计算机科学系!太原,上海师范大学计算中心!上海,山西大学计算机科学系!太原
关键词
自然语言处理; 词义排岐; 知网; 义原同现频率;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
词义排岐是自然语言处理的重点和难点问题之一 .基于语料库的统计方法已被广泛地应用于词义排岐 .大多数的统计方法都受到数据稀疏的困扰 ,对于词义排岐而言 ,由于有大量同义词的存在 ,数据稀疏问题变得更为严重 .充分利用“知网”这个知识源的特性 ,提出了一种基于义原同现频率的词义排岐方法 ,在很大程度上克服了数据稀疏问题 .此外 ,该方法还避免了繁重的人工标注语料的过程 ,通过在一个约 10万字的语料库上获得义原同现频率矩阵 ,并以此作为词义排岐的依据 .实验表明 ,该方法对词义排岐具有较高的正确率
引用
收藏
页码:833 / 838
页数:6
相关论文
共 2 条
[1]   基于转换的无指导词义标注方法 [J].
李涓子 ;
黄昌宁 .
清华大学学报(自然科学版), 1999, (07) :116-120
[2]   语义关系的表达和知识系统的建造 [J].
董振东 .
语言文字应用, 1998, (03) :79-85