中文分词十年回顾

被引:250
作者
黄昌宁 [1 ]
赵海 [2 ]
机构
[1] 微软亚洲研究院
[2] 香港城市大学
关键词
计算机应用; 中文信息处理; 中文分词; 词语定义; 未登录词识别; 字标注分词方法;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
过去的十年间,尤其是2003年国际中文分词评测活动Bakeoff开展以来,中文自动分词技术有了可喜的进步。其主要表现为:(1)通过“分词规范+词表+分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础;(2)实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统;(3)在Bakeoff数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5倍以上;(4)实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典)的方法,并使自动分词系统的精度达到了新高。
引用
收藏
页码:8 / 19
页数:12
相关论文
共 5 条
[1]   汉语自动分词和词性标注评测 [J].
杨尔弘 ;
方莹 ;
刘冬明 ;
乔羽 .
中文信息学报, 2006, (01) :44-49+97
[2]   汉语自动分词研究评述 [J].
孙茂松 ;
邹嘉彦 .
当代语言学, 2001, (01) :22-32+77
[3]   谈谈汉语分词语料库的一致性问题 [J].
孙茂松 .
语言文字应用, 1999, (02) :90-93
[4]   现代汉语自动分词评测技术研究 [J].
刘开瑛 .
语言文字应用, 1997, (01)
[5]   中文信息处理中的分词问题 [J].
黄昌宁 .
语言文字应用, 1997, (01)