一种改进的快速分词算法

被引:54
作者
陈桂林
王永成
韩客松
王刚
机构
[1] 上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海,上海交通大学网络信息中心!上海
关键词
分词; Hash; 二分查找; 近邻匹配; 时间复杂度;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
首先介绍了一种高效的中文电子词表数据结构 ,它支持首字 Hash和标准的二分查找 ,且不限词条长度 ;然后提出了一种改进的快速分词算法 ,在快速查找两字词的基础上 ,利用近邻匹配方法来查找多字词 ,明显提高了分词效率 .理论分析表明 ,该分词算法的时间复杂度为 1.6 6 ,在速度方面 ,优于目前所见的同类算法
引用
收藏
页码:418 / 424
页数:7
相关论文
共 13 条
[1]   一种高效的中文电子词表数据结构 [J].
陈桂林 ;
王永成 ;
韩客松 ;
王刚 .
计算机研究与发展, 2000, (01) :109-116
[2]   基于两字词簇的汉语快速自动分词算法 [J].
郭祥昊 ;
钟义信 ;
杨丽 .
情报学报, 1998, (05) :34-39
[3]   利用汉字二元语法关系解决汉语自动分词中的交集型歧义 [J].
孙茂松 ;
黄昌宁 ;
邹嘉彦 ;
陆方 ;
沈达阳 .
计算机研究与发展 , 1997, (05) :14-21
[4]   一种改进的MM分词方法的算法设计 [J].
骆正清 ;
陈增武 ;
胡上序 .
中文信息学报, 1996, (03) :30-36
[5]   一种汉语分词方法 [J].
吴胜远 .
计算机研究与发展, 1996, (04) :306-311
[6]   基于神经网络的分词方法 [J].
徐秉铮 ;
詹剑 ;
贺前华 .
中文信息学报, 1993, (02) :36-44
[7]   快速书面汉语自动分词系统及其算法设计 [J].
张国煊 ;
王小华 ;
周必水 .
计算机研究与发展, 1993, (01) :61-65
[8]   多语料库作法之中文姓名辨识 [J].
张俊盛 ;
陈舜德 ;
郑萦 ;
刘显仲 ;
柯淑津 .
中文信息学报, 1992, (03) :7-15
[9]   汉语计算机自动分词知识 [J].
梁南元 .
中文信息学报, 1990, (02) :29-33
[10]   基于规则的汉语自动分词系统 [J].
姚天顺 ;
张桂平 ;
吴映明 ;
不详 .
中文信息学报 , 1990, (01) :37-43