数据质量研究综述

被引:101
作者
韩京宇 [1 ]
徐立臻 [2 ]
董逸生 [2 ]
机构
[1] 中科院软件所基础软件国家工程中心
[2] 东南大学计算机科学与工程系
关键词
数据质量; 数据清洗; 机器学习; 数据审计;
D O I
暂无
中图分类号
TP315 [管理程序、管理系统];
学科分类号
1201 ;
摘要
数据质量管理是信息系统建设的首要问题。本文首先回顾了数据质量的定义和质量提高策略的分类,然后对数据质量研究涉及的两个主要方面,即数据质量评估和数据质量提高技术的各种方法进行了比较和分析,并对有代表性的数据质量提高工具进行了介绍。最后提出了一个评估驱动的数据质量提高框架,并对数据质量研究方向进行了展望。
引用
收藏
页码:1 / 5+12 +12
页数:6
相关论文
共 11 条
[1]   一种大数据量的相似记录检测方法 [J].
韩京宇 ;
徐立臻 ;
董逸生 .
计算机研究与发展, 2005, (12) :2206-2212
[2]   一种高效的检测相似重复记录的方法 [J].
邱越峰 ;
田增平 ;
季文贇 ;
周傲英 .
计算机学报, 2001, (01) :69-77
[3]   Methods for evaluating and creating data quality [J].
Winkler, WE .
INFORMATION SYSTEMS, 2004, 29 (07) :531-550
[4]   A Bayesian decision model for cost optimal record matching [J].
Verykios, VS ;
Moustakides, GV ;
Elfeky, MG .
VLDB JOURNAL, 2003, 12 (01) :28-40
[5]  
Learning missing values from summary constraints[J] . Xintao Wu,Daniel Barbará.ACM SIGKDD Explorations Newsletter . 2002 (1)
[6]   A knowledge-based approach for duplicate elimination in data cleaning [J].
Low, WL ;
Lee, ML ;
Ling, TW .
INFORMATION SYSTEMS, 2001, 26 (08) :585-606
[7]   Discovering and reconciling value conflicts for numerical data integration [J].
Fan, WG ;
Lu, HJ ;
Madnick, SE ;
Cheung, D .
INFORMATION SYSTEMS, 2001, 26 (08) :635-656
[8]  
The Asilomar report on database research[J] . Phil Bernstein,Michael Brodie,Stefano Ceri,David DeWitt,Mike Franklin,Hector Garcia-Molina,Jim Gray,Jerry Held,Joe Hellerstein,H. V. Jagadish,Michael Lesk,Dave Maier,Jeff Naughton,Hamid Pirahesh,Mike Stonebraker,Jeff Ullman.ACM SIGMOD Record . 1998 (4)
[9]   Data quality in context [J].
Strong, DM ;
Lee, YW ;
Wang, RY .
COMMUNICATIONS OF THE ACM, 1997, 40 (05) :103-110
[10]   TECHNIQUES FOR AUTOMATICALLY CORRECTING WORDS IN TEXT [J].
KUKICH, K .
COMPUTING SURVEYS, 1992, 24 (04) :377-439