大数据上基于Hadoop的不一致数据检测与修复算法

被引:12
作者
张安珍
门雪莹
王宏志
李建中
高宏
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
数据一致性; Map Reduce; 条件函数依赖; 数据质量;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
随着现代社会互联网的普及应用,产生的海量数据普遍存在质量问题。针对数据质量中不一致性问题进行研究,设计并实现了基于Hadoop并行平台的不一致数据检测与修复算法。采用数据依赖理论中的条件函数依赖,根据给定规则检测不一致数据集,对这些不一致数据求解修复方案,使得修复结果满足数据一致性要求,并给出修复结果的确定性概率。最后通过实验证明了该算法较已有的单机算法有更好的修复效果,当约束规则较少的情况下,算法执行时间呈线性增长。
引用
收藏
页码:1044 / 1055
页数:12
相关论文
共 6 条
[1]  
数据质量模型及关系代数运算下质量传递理论与方法研究[D]. 陈卫东.国防科学技术大学. 2007
[2]   Conditional functional dependencies for capturing data inconsistencies [J].
Fan, Wenfei ;
Geerts, Floris ;
Jia, Xibei ;
Kementsietsidis, Anastasios .
ACM TRANSACTIONS ON DATABASE SYSTEMS, 2008, 33 (02)
[3]  
Reconciling schemas of disparate data sources[J] . AnHai Doan,Pedro Domingos,Alon Y. Halevy.ACM SIGMOD Record . 2001 (2)
[4]  
Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem[J] . Mauricio A. Hernández,Salvatore J. Stolfo.Data Mining and Knowledge Discovery . 1998 (1)
[5]  
Rough set approach to incomplete information systems[J] . Marzena Kryszkiewicz.Information Sciences . 1998 (1)
[6]  
Clean answers over dirty databases:a probabilistic approach .2 Andritsos P,Fuxman A,Miller R J. Proceedings of the22nd International Conference on Data Engineering,(ICDE2006) . 2006