数据清洗研究综述

被引:77
作者
王曰芬
章成志
张蓓蓓
吴婷婷
机构
[1] 南京理工大学经济管理学院
关键词
数据清洗; 数据质量; 重复记录检测; 异常数据检测;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
对数据清洗问题进行综述。介绍数据清洗问题产生的背景和国内外研究现状。给出数据清洗的定义和对象,说明数据清洗的基本原理、模型,分析相关算法与工具,给出数据清洗评估方法;并对今后数据清洗的研究和应用进行展望。
引用
收藏
页码:50 / 56
页数:7
相关论文
共 10 条
[1]   面向信息检索需要的网络数据清理研究 [J].
刘奕群 ;
张敏 ;
马少平 .
中文信息学报, 2006, (03) :70-77
[2]   一种可交互的数据清洗系统 [J].
王咏梅 ;
陈家琪 ;
耿玉良 .
计算机工程与设计, 2005, (04) :955-957
[3]   基于聚类模式的数据清洗技术 [J].
唐懿芳 ;
钟达夫 ;
严小卫 .
计算机应用, 2004, (05) :116-119
[4]   数据质量和数据清洗研究综述 [J].
郭志懋 ;
周傲英 .
软件学报, 2002, (11) :2076-2082
[5]  
数据清洗算法的研究与应用[D]. 周奕辛.青岛大学 2005
[6]  
基于数据仓库的数据清洗方法研究[D]. 周芝芬.东华大学 2004
[7]  
Real-world Data is Dirty: Data Cleansing and The Merge/Purge Problem[J] . Mauricio A. Hernández,Salvatore J. Stolfo.Data Mining and Knowledge Discovery . 1998 (1)
[8]   Anchoring data quality dimensions in ontological foundations [J].
Wand, Y ;
Wang, RY .
COMMUNICATIONS OF THE ACM, 1996, 39 (11) :86-95
[9]  
A Framework for Analysis of Data Quality Research. Wang V S, Firth C P. IEEE Transactions on Knowledge & Data Engineering . 1995
[10]  
An Efficient Domain Independent Algorithm forDetecting Approximately Duplicate Database Records. Monge A,Elkan C. Pro-ceedings of the SIGMOD Workshop on Data Mining and KnowledgeDiscovery . 1997