数据质量和数据清洗研究综述

被引:276
作者
郭志懋
周傲英
机构
[1] 复旦大学计算机科学与工程系
[2] 复旦大学智能信息处理开放实验室 上海
[3] 上海
关键词
数据质量; 数据清洗; 数据集成; 相似重复记录; 数据清洗框架;
D O I
10.13328/j.cnki.jos.2002.11.003
中图分类号
TP311.12 [];
学科分类号
081202 ; 0835 ;
摘要
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望.
引用
收藏
页码:2076 / 2082
页数:7
相关论文
共 4 条
[1]   一种检测多语言文本相似重复记录的综合方法 [J].
俞荣华 ;
田增平 ;
周傲英 .
计算机科学, 2002, (01) :118-121
[2]   一种高效的检测相似重复记录的方法 [J].
邱越峰 ;
田增平 ;
季文贇 ;
周傲英 .
计算机学报, 2001, (01) :69-77
[3]  
Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem[J] . Mauricio A. Hernández,Salvatore J. Stolfo.Data Mining and Knowledge Discovery . 1998 (1)
[4]  
Data Cleaning And Integration .2 GALHARDAS,H. HTTP://CARAVEL.INRIA.FR/~GALHARDA/CLEANING.HTML . 2001