数据质量维度量化方法

被引:9
作者
韩京宇 [1 ,2 ]
宋爱波 [2 ]
董逸生 [2 ]
机构
[1] 南京邮电大学计算机技术研究所
[2] 东南大学计算机科学与工程学院
关键词
数据质量; 信息论; 信息熵;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
为了实现自动化的数据质量评估,提出了一种在背景范围内的数据质量量化方法QDC(Quantify Dimensions within Con-text)。数据质量可以用数据和其对应实体的"完美表达"间的差距来衡量。由于"完美表达"很难获得或代价很高,因此提出在多数据源条件下,数据的"完美表达"可以在其背景范围内用投票获得的"最近似"来替代,从而确定了数据质量评估参照的标准。同时提出利用信息论中信息熵指标,将不同类型数据的质量维度统一为通用的度量。作为一种自动化的数据质量评估方法,QDC方法不仅能够对数据的准确性和完整性维度给出准确的评估值,并且具有很高的计算效率。
引用
收藏
页码:1 / 6
页数:6
相关论文
共 5 条
[1]   一种高效的检测相似重复记录的方法 [J].
邱越峰 ;
田增平 ;
季文贇 ;
周傲英 .
计算机学报, 2001, (01) :69-77
[2]   A product perspective on total data quality management [J].
Wang, RY .
COMMUNICATIONS OF THE ACM, 1998, 41 (02) :58-65
[3]   Anchoring data quality dimensions in ontological foundations [J].
Wand, Y ;
Wang, RY .
COMMUNICATIONS OF THE ACM, 1996, 39 (11) :86-95
[4]  
Evoke. http://www.evokesoft.com .
[5]  
Quality views:Capturing and exploiting the user perspective on data quality. Missier P,Embury S,Greenwood M. Proc of32th VLDB . 2006