基于网络爬虫的地名数据库维护方法

被引:19
作者
张春菊
张雪英
朱少楠
徐希涛
机构
[1] 南京师范大学虚拟地理环境教育部重点实验室
关键词
地名数据库; 网络爬虫; 地名识别; 主题相关性;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
目前,我国地名数据库建设存在大、中颗粒度地名集中,小颗粒度地名较为缺乏,地名资料陈旧、时效性较低,简称、别名等非标准地名信息和地名的相对位置信息缺失等问题。而地名数据库的更新维护工作主要通过人工测绘手段完成,存在周期长、成本高、效率低等缺点。针对这一问题,本文以现有地名数据库和空间关系词汇为基础,基于Google搜索引擎服务,提出一种以网页资源为数据源,利用网络爬虫技术和地名识别技术,进行地名数据库更新维护的方法。首先,设计以地名为主题的网络爬虫,实现非结构化的网页数据中海量空间敏感网页文本的主动获取;然后,采用HTML DOM技术解析空间敏感网页并应用CRF地名识别模型自动识别网页文本中地名;最后,设计相关算法进行网页文本中地名信息的自动解析,实现新地名和地名空间位置信息的获取,进行地名数据库的更新维护。以"南京师范大学仙林宾馆+西北"为空间检索实例,验证了此方法的可行性。
引用
收藏
页码:492 / 499
页数:8
相关论文
共 13 条
[1]  
主题爬虫搜索策略研究.[D].陈丛丛.山东大学.2009, 04
[2]  
基于条件随机域的中文命名实体识别研究.[D].王志强.南京理工大学.2006, 01
[3]   汉语地名时空信息的一体化表达 [J].
李金良 ;
张雪英 ;
樊晓春 .
地理与地理信息科学, 2010, 26 (06) :6-10+23
[4]   北京市地名数据库的维护更新 [J].
张保钢 ;
杨伯钢 ;
孔俊元 .
北京测绘, 2010, (03) :28-30
[5]   地理命名实体分类体系的设计与应用分析 [J].
张雪英 ;
张春菊 ;
闾国年 .
地球信息科学学报, 2010, 12 (02) :2220-2227
[6]   基于搜索引擎调用的主题搜索设计与实现 [J].
陈财森 ;
王韬 ;
郑伟 ;
陈建泗 .
计算机工程与设计, 2008, (21) :5627-5629
[7]   主题搜索引擎中网络爬虫的搜索策略研究 [J].
李勇 ;
韩亮 .
计算机工程与科学, 2008, (03) :4-6+56
[8]   1∶5万地名数据库到1∶1万地名数据库转换的研究与开发 [J].
陈春华 .
测绘通报, 2006, (05) :71-72
[9]   自然语言信息抽取中的机器学习方法研究 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
计算机科学, 2005, (03) :186-189+199
[10]   基于XML的无线位置服务地理信息服务器的实现 [J].
陈钻 ;
万庆 ;
吴杰 .
地球信息科学, 2004, (04) :100-104