基于关联数据的一致性和时效性清洗方法

被引:40
作者
杜岳峰
申德荣
聂铁铮
寇月
于戈
机构
[1] 东北大学计算机科学与工程学院
关键词
数据一致性; 数据时效性; 大数据质量; 关联数据; 数据清洗;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
数据一致性和数据时效性是大数据质量管理所关注的两个重要内容.条件函数依赖(CFDs)和时效约束(CCs)分别是用于分析数据一致性和数据时效性的有效技术手段.现实生活中的数据会夹杂一些关于一致性和时效性的潜在错误,这些错误又无法为CFDs和CCs检测和修复,最终影响数据的整体质量.值得一提的是,这些数据通常是相互关联的,这种关联关系可以用来发现数据中的潜在错误.文中使用了一种条件合并的函数依赖(CCFDs)将关联数据放在一起进行处理.基于此,该文提出了一种基于关联数据的一致性和时效性清洗方法.在数据清洗过程中,数据的检测和修复是两个相互影响的过程.所以,该文设计了一种新的自动清洗框架,迭代地进行数据检测和数据修复.其次,该文对关联数据的一致性和时效性清洗的相关问题进行了分析,并且证明了关于CCFDs和CCs的最小代价修复问题是一个Σp2完全(NPNP)问题.进而,该文采用一种启发式的修复方法对错误进行修复.为了提高修复的准确性,该文还提出了一种修复序列图的概念.最后,通过在两组真实数据上进行实验,验证了方法的实用性和高效性.
引用
收藏
页码:92 / 106
页数:15
相关论文
共 9 条
[1]   数据时效性修复问题的求解算法 [J].
李默涵 ;
李建中 .
计算机研究与发展, 2015, (09) :1992-2001
[2]   基于任务合并的并行大数据清洗过程优化 [J].
杨东华 ;
李宁宁 ;
王宏志 ;
李建中 ;
高宏 .
计算机学报, 2016, 39 (01) :97-108
[3]   数据时效性判定问题的求解算法 [J].
李默涵 ;
李建中 ;
高宏 .
计算机学报, 2012, 35 (11) :2348-2360
[4]  
Conflict resolution with data currency and consistency[J] . Wenfei Fan,Floris Geerts,Nan Tang,Wenyuan Yu.Journal of Data and Information Quality (JDIQ) . 2014 (1-2)
[5]  
Extending inclusion dependencies with conditions[J] . Shuai Ma,Wenfei Fan,Loreto Bravo.Theoretical Computer Science . 2014
[6]   Interaction between Record Matching and Data Repairing [J].
Fan, Wenfei ;
Ma, Shuai ;
Tang, Nan ;
Yu, Wenyuan .
ACM JOURNAL OF DATA AND INFORMATION QUALITY, 2014, 4 (04)
[7]   Determining the Currency of Data [J].
Fan, Wenfei ;
Geerts, Floris ;
Wijsen, Jef .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 2012, 37 (04)
[8]  
Discovering data quality rules .2 Fei Chiang,Renée J. Miller. Proceedings of the VLDB Endowment . 2008
[9]  
Increasing the expressivity of conditional functional dependencies without extra complexity .2 Bravo L,Fan W,Geerts F,et al. Proceedings of the 24th IEEE International Conference on Data Engineering . 2008