基于统计的汉语词性标注方法的分析与改进

被引:32
作者
魏欧
吴健
孙玉芳
sonata.iscas.ac.cn
机构
[1] 中国科学院软件研究所!北京
[2] E-mail:yfsun
关键词
词性标注; n元语法; 语料; 语法属性;
D O I
10.13328/j.cnki.jos.2000.04.008
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
从词性概率矩阵与词汇概率矩阵的结构和数值变化等方面 ,对目前常用的基于统计的汉语词性标注方法中训练语料规模与标注正确率之间所存在的非线性关系作了分析 .为了充分利用训练语料库 ,提高标注正确率 ,从利用词语相关的语法属性和加强对未知词的处理两个方面加以改进 ,提高了标注性能 .封闭测试和开放测试的正确率分别达到 96.5%和 96% .
引用
收藏
页码:473 / 480
页数:8
相关论文
共 3 条
[1]   规则和统计相结合的汉语词类标注方法 [J].
周强 .
中文信息学报, 1995, (03) :1-10
[2]   基于语料库和面向统计学的自然语言处理技术 [J].
周强 .
计算机科学, 1995, (04) :36-40
[3]  
现代汉语语法信息词典详解[M]. - 清华大学出版社 , 俞士汶等著, 2003