回溯正向匹配中文分词算法

被引:13
作者
张劲松
袁健
机构
[1] 上海理工大学计算机与电气工程学院
关键词
中文分词; 最大匹配法; 回溯匹配; 交集型歧义;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
在最大匹配法(The Maximum Matching Method)的基础上,提出了一种回溯正向匹配(The Backtracking Matching Method)的中文分词方法。该方法首先对待切文本进行预处理,将文本分割成长度较短的细粒度文本;利用正向匹配、回溯匹配和尾词匹配来有效发现歧义字段;利用长词优先兼顾2词簇的方式对交集型歧义字段进行切分。最后对该算法进行的定性分析说明了该方法的先进性,从随机抽取大量语料实验结果上证明了该方法的有效性。
引用
收藏
页码:132 / 134
页数:3
相关论文
共 9 条
[1]   基于反序词典的中文分词技术研究 [J].
罗桂琼 ;
费洪晓 ;
戴弋 .
计算机技术与发展, 2008, (01) :80-83
[2]   Web新闻语料分词和标注错误分析 [J].
张永奎 ;
张彦 ;
安增波 ;
刘睿 .
计算机工程与应用, 2007, (15) :166-169
[3]   具有三级索引词库结构的中文分词方法研究 [J].
肖红 ;
许少华 ;
李欣 .
计算机应用研究, 2006, (08) :49-51
[4]   现代汉语通用分词系统中歧义切分的实用技术 [J].
罗智勇 ;
宋柔 .
计算机研究与发展, 2006, (06) :1122-1128
[5]   基于无指导学习策略的无词表条件下的汉语自动分词 [J].
孙茂松 ;
肖明 ;
邹嘉彦 .
计算机学报, 2004, (06) :736-742
[6]   交集型歧义字段切分方法研究 [J].
闫引堂 ;
周晓强 .
情报学报, 2000, (06) :637-643
[7]   利用汉字二元语法关系解决汉语自动分词中的交集型歧义 [J].
孙茂松 ;
黄昌宁 ;
邹嘉彦 ;
陆方 ;
沈达阳 .
计算机研究与发展 , 1997, (05) :14-21
[8]   论汉语自动分词方法 [J].
揭春雨 ;
刘源 ;
梁南元 .
中文信息学报, 1989, (01) :1-9
[9]  
知识发现[M]. 清华大学出版社 , 史忠植著, 2002