Web新闻语料分词和标注错误分析

被引:6
作者
张永奎 [1 ]
张彦 [1 ]
安增波 [2 ]
刘睿 [1 ]
机构
[1] 山西大学计算机与信息技术学院
[2] 中国人民解放军部队自动化工作站
关键词
中文信息处理; 分词; 词性标注; 错误类型; Web突发事件新闻语料库;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
通过分析Web突发事件语料库文本的加工统计得出11类错误类型,并对其中的一些错误提出了解决方案。研究结果不仅对语料库加工初期分词、标注方法的改进有启发作用,而且对中文的自动校对方法,提供一定的借鉴。
引用
收藏
页码:166 / 169
页数:4
相关论文
共 5 条
[1]   汉语语料库词性标注自动校对方法研究 [J].
张虎 ;
郑家恒 ;
刘江 .
计算机应用, 2005, (01) :17-19+24
[2]   一种基于语词的分词方法 [J].
赵曾贻 ;
陈天娥 ;
朱兰 .
苏州大学学报(自然科学), 2002, (03) :44-48
[3]   北京大学现代汉语语料库基本加工规范 [J].
俞士汶 ;
段慧明 ;
朱学锋 ;
孙斌 .
中文信息学报, 2002, (05) :49-64
[4]   中文文本自动校对 [J].
张磊 ;
周明 ;
黄昌宁 ;
潘海华 .
语言文字应用, 2001, (01) :19-26
[5]   自动分词中未登录词问题的一揽子解决方案 [J].
陈小荷 .
语言文字应用, 1999, (03) :103-109