相似重复记录清理方法研究综述

被引:19
作者
叶焕倬
吴迪
机构
[1] 中南财经政法大学信息与安全工程学院信息系
关键词
相似重复记录; 数据清洗; 检测算法; 清除算法;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
介绍相似重复数据清理的步骤、框架和衡量标准。重点对检测和清除算法按照算法类型及相关改进思路进行分类综述,给出算法的适用范围和优缺点,概括现有的数据清理工具(如Merge/Purge)。对相似重复记录清理领域的研究问题进行展望,将知识和语义的概念引入到数据清理框架中是未来重要的发展趋势。
引用
收藏
页码:56 / 66
页数:11
相关论文
共 34 条
[1]   基于整体和局部相似性的序列聚类算法 [J].
戴东波 ;
汤春蕾 ;
熊赟 .
软件学报, 2010, 21 (04) :702-717
[2]   数据仓库中重复记录清理算法研究 [J].
钟嘉庆 ;
张义芳 ;
卢志刚 .
信息化纵横, 2009, 28 (07) :4-6
[3]   审计软件现状及发展趋势研究 [J].
陈伟 ;
QIU Robin .
计算机科学, 2009, 36 (02) :1-4+25
[4]   基于无监督学习的数据清洗算法 [J].
孙铁民 ;
于杰 ;
尚程 ;
田大新 ;
张丽华 .
吉林大学学报(信息科学版), 2008, 26 (06) :599-604
[5]   基于改进编辑距离和依存文法的汉语句子相似度计算 [J].
刘宝艳 ;
林鸿飞 ;
赵晶 .
计算机应用与软件, 2008, (07) :33-34+47
[6]   一种基于网格密度与空间划分树的聚类算法 [J].
曾东海 ;
米红 ;
刘力丰 .
系统工程理论与实践, 2008, (07) :125-131+137
[7]   数据质量研究综述 [J].
韩京宇 ;
徐立臻 ;
董逸生 .
计算机科学, 2008, (02) :1-5+12
[8]   对基于MPN数据清洗算法的改进 [J].
李坚 ;
郑宁 .
计算机应用与软件, 2008, (02) :245-247
[9]   基于编辑距离的XML文档结构聚类的改进算法 [J].
龚安 ;
刘华山 .
微计算机应用, 2008, (02) :88-91
[10]   DBSCAN聚类算法的研究与改进 [J].
冯少荣 ;
肖文俊 .
中国矿业大学学报, 2008, (01) :105-111