基于两字词簇的汉语快速自动分词算法

被引：17

作者：

郭祥昊

钟义信

杨丽

机构：

[1] 北京邮电大学人工智能实验室

[2] 北方交通大学

来源：

情报学报 | 1998年 / 05期

关键词：

自然语言处理,分词算法,切分歧义;

D O I：

暂无

中图分类号：

G254.0 [文献检索语言（总论）];

学科分类号：

1205 ; 120501 ;

摘要：

本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占７５％的统计规律，提出了两字词根和两字词簇的概念。算法把三音节以上的词用两字词簇来压缩处理，也就是把长词的扫描范围限定在词汇量很小的词簇内，从而不仅提高了分词速度，而且彻底解决了传统最大匹配分词算法中最大匹配词长的设定问题。另外，本文还提出了用两字词簇快速检测交叉歧义的算法。本文的分词算法简洁、速度快、易于实现

引用

页码：34 / 39

页数：6

共 5 条

[1] 汉语词切分标引算法的改进 [J].