基于CRF的先秦汉语分词标注一体化研究

被引:70
作者
石民
李斌
陈小荷
机构
[1] 南京师范大学文学院
关键词
计算机应用; 中文信息处理; 先秦汉语; 分词; 词性标注; 左传; 条件随机场模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
该文探索了古代汉语,特别是先秦文献的词切分及词性标注。首先对《左传》文本进行了词汇处理(分词和词性标注)和考察分析,然后采用条件随机场模型(CRF),进行自动分词、词性标注、分词标注一体化的对比实验。结果表明,一体化分词比单独分词的准确率和召回率均有明显提高,开放测试的F值达到了94.60%;一体化词性标注的F值达到了89.65%,比传统的先分词后标注的"两步走"方法有明显提高。该项研究可以服务于古代汉语词汇研究和语料库建设,以弥补人工标注的不足。
引用
收藏
页码:39 / 45
页数:7
相关论文
共 5 条
[1]   一种基于字词联合解码的中文分词方法 [J].
宋彦 ;
蔡东风 ;
张桂平 ;
赵海 .
软件学报, 2009, 20 (09) :2366-2375
[2]   基于中文信息处理的古代汉语分词研究 [J].
邱冰 ;
皇甫娟 .
微计算机信息, 2008, (24) :100-102
[3]   计算机技术和汉语史研究 [J].
尉迟治平 .
古汉语研究, 2000, (03) :56-60
[4]  
左传详解词典[M]. 中州古籍出版社 , 陈克炯[编], 2004
[5]  
春秋左传注[M]. 中华书局 , 杨伯峻编著, 1990