基于N-最短路径方法的中文词语粗分模型

被引:93
作者
张华平
刘群
机构
[1] 中国科学院计算技术研究所软件实验室
[2] 中国科学院计算技术研究所软件实验室 北京
[3] 北京
关键词
N-最短路径方法; 粗分; 中文词语分析;
D O I
暂无
中图分类号
TP391.2 [翻译机];
学科分类号
081203 ; 0835 ;
摘要
预处理过程的词语粗切分,是整个中文词语分析的基础环节,对最终的召回率、准确率、运行效率起着重要的作用。词语粗分必须能为后续的过程提供少量的、高召回率的、中间结果。本文提出了一种基于N-最短路径方法的粗分模型,旨在兼顾高召回率和高效率。在此基础上,引入了词频的统计数据,对原有模型进行改进,建立了更实用的统计模型。针对人民日报一个月的语料库(共计185,192个句子),作者进行了粗分实验。按句子进行统计,2-最短路径非统计粗分模型的召回率为99.73%;在10-最短路径统计粗分模型中,平均6.12个粗分结果得到的召回率高达99.94%,比最大匹配方法高出15%,比以前最好的切词方法至少高出6.4%。而粗分结果数的平均值较全切分减少了64倍。实验结果表明:N-最短路径方法是一种预处理过程中实用、有效的的词语粗分手段。
引用
收藏
页码:1 / 7
页数:7
相关论文
共 5 条
[1]   规则和统计相结合的汉语词类标注方法 [J].
周强 .
中文信息学报, 1995, (03) :1-10
[2]   书面汉语自动分词系统—CDWS [J].
梁南元 .
中文信息学报, 1987, (02) :44-52
[3]  
计算机算法基础[M]. 华中理工大学出版社 , 余祥宣等编, 2000
[4]  
现代汉语自动分析[M]. 北京语言文化大学出版社 , 陈小荷著, 2000
[5]  
计算语言学导论[M]. 中国社会科学出版社 , 翁富良, 1998