基于数据分区的DBSCAN算法

被引:92
作者
周水庚
周傲英
曹晶
机构
[1] 复旦大学计算机科学系!上海
[2] 上海(国际)数据库研究中心上海,复旦大学计算机科学系!上海
[3] 上海(国际)数据库研究中心上海
关键词
空间数据库; 数据挖掘; 聚类; 数据分区; DBSCAN算法;
D O I
暂无
中图分类号
TP311 [程序设计、软件工程];
学科分类号
081202 ; 0835 ;
摘要
数据聚类在数据挖掘、模式识别、图像处理和数据压缩等领域有着广泛的应用 .DBSCAN是一种基于密度的空间聚类算法 ,在处理空间数据时具有快速、有效处理噪声点和发现任意形状的聚类等优点 .但由于直接对数据库进行操作 ,在数据量大的时候就需要较多的内存和 I/O开销 ;此外 ,当数据密度和聚类间的距离不均匀时聚类质量较差 .为此 ,在分析 DBSCAN算法不足的基础上 ,提出了一个基于数据分区的 DBSCAN算法 .测试结果表明新算法不仅提高了聚类速度 ,而且改善了聚类质量 .
引用
收藏
页码:1153 / 1159
页数:7
相关论文
共 11 条
[1]  
A density-based algorithm for discovering clusters in large spatial databases with noise. Ester M et al. In: Proc of 2nd Int’ l Conf on Knowledge Discovering in Databases and Data Mining (KDD-96) . 1996
[2]  
BIRCH: An efficient data clustering method for very large databases. Zhang T et al. In: Proc of the ACM SIGMOD Int’ l Conf on Management of Data . 1996
[3]  
Data mining: An overview from a database perspective. Chen M S et al. IEEE Transactions on Knowledge and Data Engineering . 1996
[4]  
A Statistical Information Grid Approach to Spatial Data Mining. W.Wang,J.Yang,R.Muntz. Proceeding of the 23rd International Conference on Very Large DataBases . 1997
[5]  
Randomized algorithms. Motwani R,,Raghavan P. . 1995
[6]  
The R* -tree: An efficient and robust access method for points and rectangles. Bechmann N et al. In: Proc of ACM SIGMOD Int’ l Conf on Management of Data . 1990
[7]  
WaveCluster;A Multi-Resolution Clustering Approach for Very Large Spatial Databases. Sheikholeslami,Gholamhosein,Surojit Chatterjee,and Aidong Zhang. Proceedings of the 24th Very Large Databases Conference(VLDB 98) . 1998
[8]  
Random sampling with reservoir. Vitter J. ACM Transactions on Mathematical Software . 1985
[9]  
Efficient and effective clustering methods for spatial data mining. Raymond T N,Han J W. 20th International Conference on Very Large Data Bases . 1994
[10]  
Automatic subspace clustering of high dimensional data for data mining applications. Agrawal R et al. In: Proc of ACM SIGMOD Int’ l Conf on Management of Data . 1998