串频统计和词形匹配相结合的汉语自动分词系统

被引:63
作者
刘挺
吴岩
王开铸
机构
[1] 哈尔滨工业大学计算机系
关键词
中文信息处理,自动分词,软件系统;
D O I
暂无
中图分类号
TP311, [];
学科分类号
081202 ; 0835 ;
摘要
本文介绍了一种汉语自动分词软件系统,该系统对原文进行三遍扫描:第一遍,利用切分标记将文本切分成汉字短串的序列;第二遍,根据各短串的每个子串在上下文中的频度计算其权值,权值大的子串视为候选词;第三遍,利用候选词集和一部常用词词典对汉字短串进行切分。实验表明,该分词系统的分词精度在1.5%左右,能够识别大部分生词,特别适用于文献检索等领域
引用
收藏
页码:18 / 26
页数:9
相关论文
empty
未找到相关数据