互联网文本蕴含道路交通信息抽取的模式匹配方法

被引:10
作者
仇培元 [1 ,2 ]
张恒才 [1 ]
陆锋 [1 ]
机构
[1] 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室
[2] 中国科学院大学
关键词
互联网文本; 道路交通信息; 模式匹配; DTW距离; 信息抽取;
D O I
暂无
中图分类号
P208 [测绘数据库与信息系统];
学科分类号
070503 ; 081603 ; 0818 ; 081802 ;
摘要
互联网页面和社交网络文本中蕴含丰富的道路交通信息,是其他交通信息采集平台的有效补充。然而,自然语言文本形式的交通信息多以线性参考或地标方位描述交通事件空间位置,且大量存在事件元素缺失或隐含现象,对交通信息的自动化抽取有着较大影响。考虑到交通信息的自然语言表达方式虽然自由随意,但表达模式相对固定,提出一种从互联网文本中抽取道路交通信息的模式匹配方法。首先,基于道路交通事件描述的语言特征构建模式库;然后,以特征词词性序列的形式表达互联网文本和抽取模式,利用DTW距离度量序列相似度,实现抽取模式匹配;最后,在匹配抽取模式和填补规则指导下获取结构化的道路交通信息。由上海市城市交通相关门户网站和微博客平台的实验过程显示,本文所提出的模式匹配方法,抽取道路交通信息的准确率和召回率分别达到90%和80%以上,表明该方法能有效抽取互联网文本蕴含的道路交通信息,且实现过程相对简单,易于扩展,具有可用性。
引用
收藏
页码:416 / 422
页数:7
相关论文
共 11 条
[1]  
中文事件抽取的相关技术研究.[D].赵妍妍.哈尔滨工业大学.2007, 03
[2]  
自由文本的信息抽取模式获取的研究.[D].姜吉发.中国科学院研究生院(计算技术研究所).2004, 02
[3]   Social media competitive analysis and text mining: A case study in the pizza industry [J].
He, Wu ;
Zha, Shenghua ;
Li, Ling .
INTERNATIONAL JOURNAL OF INFORMATION MANAGEMENT, 2013, 33 (03) :464-472
[4]   Introduction to information extraction [J].
Appelt, DE .
AI COMMUNICATIONS, 1999, 12 (03) :161-172
[5]   面向网页文本的地理要素变化检测 [J].
王曙 ;
吉雷静 ;
张雪英 ;
赵仁亮 ;
陈晓丹 ;
余浩 .
地球信息科学学报, 2013, 15 (05) :625-634
[6]   事件抽取技术研究综述 [J].
高强 ;
游宏梁 .
情报理论与实践, 2013, (04) :114-117+128
[7]   基于网络爬虫的地名数据库维护方法 [J].
张春菊 ;
张雪英 ;
朱少楠 ;
徐希涛 .
地球信息科学学报, 2011, 13 (04) :492-499
[8]   事件抽取技术的回顾与展望 [J].
许旭阳 ;
韩永峰 ;
宋文政 .
信息工程大学学报, 2011, 12 (01) :113-118
[9]   自然语言表达实时路况信息的路网匹配融合技术 [J].
陈传彬 ;
陆锋 ;
励惠国 ;
王钦敏 .
中国图象图形学报, 2009, (08) :1669-1676
[10]   出行信息服务关键技术研究进展与问题探讨 [J].
陆锋 ;
郑年波 ;
段滢滢 ;
张健钦 .
中国图象图形学报, 2009, (07) :1219-1229