基于两字词簇的汉语快速自动分词算法

被引:17
作者
郭祥昊
钟义信
杨丽
机构
[1] 北京邮电大学人工智能实验室
[2] 北方交通大学
关键词
自然语言处理,分词算法,切分歧义;
D O I
暂无
中图分类号
G254.0 [文献检索语言(总论)];
学科分类号
1205 ; 120501 ;
摘要
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理,也就是把长词的扫描范围限定在词汇量很小的词簇内,从而不仅提高了分词速度,而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外,本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现
引用
收藏
页码:34 / 39
页数:6
相关论文
共 5 条
[1]   汉语词切分标引算法的改进 [J].
苏新宁 .
情报学报, 1996, (06) :26-30
[2]   一种改进的MM分词方法的算法设计 [J].
骆正清 ;
陈增武 ;
胡上序 .
中文信息学报, 1996, (03) :30-36
[3]   基于知识评价的快速汉语自动分词系统 [J].
张民,李生,王海峰,赵铁军,王铁志 .
情报学报, 1996, (02) :95-105
[4]   基于规则的汉语自动分词系统 [J].
姚天顺 ;
张桂平 ;
吴映明 ;
不详 .
中文信息学报 , 1990, (01) :37-43
[5]   最少分词问题及其解法 [J].
王晓龙 ;
王开铸 ;
李仲荣 ;
白小华 .
科学通报, 1989, (13) :1030-1032