基于统计的汉语词性标注方法的分析与改进

被引：32

作者：

魏欧

吴健

孙玉芳

sonata.iscas.ac.cn

机构：

[1] 中国科学院软件研究所!北京

[2] E-mail:yfsun

来源：

软件学报 | 2000年 / 04期

关键词：

词性标注; n元语法; 语料; 语法属性;

D O I：

10.13328/j.cnki.jos.2000.04.008

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面 ,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间所存在的非线性关系作了分析 .为了充分利用训练语料库 ,提高标注正确率 ,从利用词语相关的语法属性和加强对未知词的处理两个方面加以改进 ,提高了标注性能 .封闭测试和开放测试的正确率分别达到 96.5%和 96% .

引用

页码：473 / 480

页数：8