共 34 条
相似重复记录清理方法研究综述
被引:19
作者:

叶焕倬
论文数: 0 引用数: 0
h-index: 0
机构: 中南财经政法大学信息与安全工程学院信息系

吴迪
论文数: 0 引用数: 0
h-index: 0
机构: 中南财经政法大学信息与安全工程学院信息系
机构:
[1] 中南财经政法大学信息与安全工程学院信息系
来源:
关键词:
相似重复记录;
数据清洗;
检测算法;
清除算法;
D O I:
暂无
中图分类号:
TP311.13 [];
学科分类号:
1201 ;
摘要:
介绍相似重复数据清理的步骤、框架和衡量标准。重点对检测和清除算法按照算法类型及相关改进思路进行分类综述,给出算法的适用范围和优缺点,概括现有的数据清理工具(如Merge/Purge)。对相似重复记录清理领域的研究问题进行展望,将知识和语义的概念引入到数据清理框架中是未来重要的发展趋势。
引用
收藏
页码:56 / 66
页数:11
相关论文
共 34 条
[1]
基于整体和局部相似性的序列聚类算法
[J].
戴东波
;
汤春蕾
;
熊赟
.
软件学报,
2010, 21 (04)
:702-717

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

熊赟
论文数: 0 引用数: 0
h-index: 0
机构: 复旦大学计算机科学技术学院
[2]
数据仓库中重复记录清理算法研究
[J].
钟嘉庆
;
张义芳
;
卢志刚
.
信息化纵横,
2009, 28 (07)
:4-6

钟嘉庆
论文数: 0 引用数: 0
h-index: 0
机构: 燕山大学电气工程学院

论文数: 引用数:
h-index:
机构:

卢志刚
论文数: 0 引用数: 0
h-index: 0
机构: 燕山大学电气工程学院
[3]
审计软件现状及发展趋势研究
[J].
陈伟
;
QIU Robin
.
计算机科学,
2009, 36 (02)
:1-4+25

陈伟
论文数: 0 引用数: 0
h-index: 0
机构:
南京审计学院信息管理系
江苏省审计信息工程重点建设实验室 南京审计学院信息管理系

QIU Robin
论文数: 0 引用数: 0
h-index: 0
机构:
宾夕法尼亚州立大学信息科学系 南京审计学院信息管理系
[4]
基于无监督学习的数据清洗算法
[J].
孙铁民
;
于杰
;
尚程
;
田大新
;
张丽华
.
吉林大学学报(信息科学版),
2008, 26 (06)
:599-604

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

张丽华
论文数: 0 引用数: 0
h-index: 0
机构:
吉林大学科技处 吉林大学科技处
[5]
基于改进编辑距离和依存文法的汉语句子相似度计算
[J].
刘宝艳
;
林鸿飞
;
赵晶
.
计算机应用与软件,
2008, (07)
:33-34+47

刘宝艳
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学计算机科学与工程系

论文数: 引用数:
h-index:
机构:

赵晶
论文数: 0 引用数: 0
h-index: 0
机构: 大连理工大学计算机科学与工程系
[6]
一种基于网格密度与空间划分树的聚类算法
[J].
曾东海
;
米红
;
刘力丰
.
系统工程理论与实践,
2008, (07)
:125-131+137

论文数: 引用数:
h-index:
机构:

米红
论文数: 0 引用数: 0
h-index: 0
机构:
浙江大学公共管理学院 厦门大学信息科学与技术学院模式识别与智能系统研究所

论文数: 引用数:
h-index:
机构:
[7]
数据质量研究综述
[J].
韩京宇
;
徐立臻
;
董逸生
.
计算机科学,
2008, (02)
:1-5+12

论文数: 引用数:
h-index:
机构:

论文数: 引用数:
h-index:
机构:

董逸生
论文数: 0 引用数: 0
h-index: 0
机构:
东南大学计算机科学与工程系 中科院软件所基础软件国家工程中心
[8]
对基于MPN数据清洗算法的改进
[J].
李坚
;
郑宁
.
计算机应用与软件,
2008, (02)
:245-247

李坚
论文数: 0 引用数: 0
h-index: 0
机构: 杭州电子科技大学

郑宁
论文数: 0 引用数: 0
h-index: 0
机构: 杭州电子科技大学
[9]
基于编辑距离的XML文档结构聚类的改进算法
[J].
龚安
;
刘华山
.
微计算机应用,
2008, (02)
:88-91

龚安
论文数: 0 引用数: 0
h-index: 0
机构: 中国石油大学计算机与通信工程学院

论文数: 引用数:
h-index:
机构:
[10]
DBSCAN聚类算法的研究与改进
[J].
冯少荣
;
肖文俊
.
中国矿业大学学报,
2008, (01)
:105-111

论文数: 引用数:
h-index:
机构:

肖文俊
论文数: 0 引用数: 0
h-index: 0
机构: 华南理工大学计算机科学与工程学院