基于高维空间的在线高效子空间Skyline算法——CSky

被引:9
作者
周红福
宫学庆
郑凯
周傲英
机构
[1] 复旦大学计算机科学与工程系
[2] 复旦大学计算机科学与工程系 上海
关键词
轮廓; 子空间; 渐进算法; 在线算法;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
Skyline计算是要发现数据集中不被其他点支配的所有点的集合.近来,它在实时在线服务方面的良好应用前景,使其成为数据库研究领域的一个热点.实际应用中,用户通常期望快速、渐进地返回Skyline计算结果,因此文中主要讨论了高维空间子空间Skyline渐进查询问题.据我们所知,现有的Skyline计算方法都不能直接或者通过简单修改来高效解决该种查询问题.BNL(Blocked Nested Loop)算法是一个可用来进行子空间Skyline计算的算法,但是,该方法低效且非渐进.基于此,文中提出了在线高效子空间Skyline算法——CSky(Count the Skyline).该算法充分利用了一个新颖数据结构——InvertS的特征,即通过对目标数据集进行排序,存放最可能为Skyline点的数据于算法优先扫描的位置,这使得CSky算法能高效计算出任意子空间上的Skyline;同时,CSky每次计算子空间Skyline查询时,至多访问一遍数据库;再有,算法扫描一个点时,只需和当前已发现的Skyline点进行比较即能判断该点是否为Skyline点,保证了算法的渐进性.这样,相比BNL,CSky大大减少了计算开销,具有其他基于索引的Skyline算法计算Skyline时的高效,且这种高效适用于所有子空间.理论分析和实验表明,在解决高维空间子空间Skyline查询问题方面,CSky性能大大优于BNL.
引用
收藏
页码:1409 / 1417
页数:9
相关论文
共 3 条
[1]  
Data Mining:Concepts and Tech-niques. Han J W,Kamber M. . 2000
[2]  
Interactive data analysis:The control project. Hellerstein J,Avnur R,Chou A,Hidber C,Olston C,Ra-man V,Rotha T,Haas P. IEEE Computer . 1999
[3]  
Onfinding the maxi ma of a set of vectors. Kung H T,Luccio F,Preparata F P. Journal of the ACM . 1975