基于篇章的中文地名识别研究

被引:19
作者
唐旭日
陈小荷
许超
李斌
机构
[1] 南京师范大学文学院
关键词
计算机应用; 中文信息处理; 篇章地名关系; 条件随机场; 地名性判断;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
该文介绍了以篇章为单位的中文地名识别方法和系统实现。地名识别包括简单地名识别和复杂地名识别两个阶段。简单地名识别由基于条件随机场的识别模块和基于篇章地名关系的识别模块顺序构成,以原始文本为输入,直接利用地名内部结构和相邻字信息进行地名识别和文本分词,然后利用篇章地名关系和地名性判断进一步处理。复杂地名识别以简单地名识别结果为输入,采用条件随机场识别。系统在封闭测试和开放测试中F-1值分别达到92.87%和89.76%。研究发现,在地名性判断中地名确信度低的字串对于地名识别干扰性较大,篇章地名关系能够在不降低识别精确度的情况下有效提高召回率,综合利用地名短距离和长距离依存关系可以有效提高地名识别效果。
引用
收藏
页码:24 / 32
页数:9
相关论文
共 13 条
[1]   基于小规模尾字特征的中文命名实体识别研究 [J].
冯元勇 ;
孙乐 ;
张大鲲 ;
李文波 .
电子学报, 2008, (09) :1833-1838
[2]   基于支持向量机的中文文本中地名识别 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
大连理工大学学报, 2007, (03) :433-438
[3]   SVM与规则相结合的中文地名自动识别 [J].
李丽双 ;
黄德根 ;
陈春荣 ;
杨元生 .
中文信息学报, 2006, (05) :51-57
[4]   基于最大熵的汉语人名地名识别方法研究 [J].
钱晶 ;
张杰 ;
张涛 .
小型微型计算机系统, 2006, (09) :1761-1765
[5]   基于混合统计模型的汉语命名实体识别方法 [J].
张晓艳 ;
王挺 ;
陈火旺 .
计算机工程与科学, 2006, (06) :135-139
[6]   基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[7]   基于层叠隐马尔可夫模型的中文命名实体识别 [J].
俞鸿魁 ;
张华平 ;
刘群 ;
吕学强 ;
施水才 .
通信学报, 2006, (02) :87-94
[8]   中文地名的自动识别 [J].
黄德根 ;
孙迎红 .
计算机工程, 2006, (03) :220-222
[9]   空间命名实体的识别 [J].
乐小虬 ;
杨崇俊 ;
刘冬林 .
计算机工程, 2005, (20) :49-50+53
[10]   一个统计与规则相结合的中文命名实体识别系统 [J].
向晓雯 ;
史晓东 ;
曾华琳 .
计算机应用, 2005, (10) :2404-2406