基于MapReduce的Canopy-Kmeans改进算法

被引:62
作者
毛典辉
机构
[1] 北京工商大学计算机与信息工程学院
关键词
Canopy-Kmeans算法; MapReduce; 分布式聚类;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
针对分布式Canopy-Kmeans算法中Canopy选取的随机性问题,采用"最小最大原则"对该算法进行了改进,避免了Cannopy选取的盲目性;采用MapReduce并行计算框架对算法进行了并行扩展,使之能够充分利用集群的计算和存储能力,从而适应海量数据的应用场景。以海量互联网新闻信息聚类作为应用背景,对改进后的算法进行了实验分析。实验结果表明:该方法较随机挑选Canopy策略在分类准确率以及抗噪能力上都明显提高,而且在处理海量数据时表现出较大的性能优势。
引用
收藏
页码:22 / 26+68 +68
页数:6
相关论文
共 7 条
[1]  
基于MapReduce的聚类算法的并行化研究.[D].李应安.中山大学.2010, 02
[2]   k-DmeansWM:一种基于P2P网络的分布式聚类算法 [J].
李榴 ;
唐九阳 ;
葛斌 ;
肖卫东 ;
汤大权 .
计算机科学, 2010, 37 (01) :39-41
[3]   一种基于改进K-means的文档聚类算法的实现研究 [J].
岑咏华 ;
王晓蓉 ;
吉雍慧 .
现代图书情报技术, 2008, (12) :73-79
[4]  
一种改进的k-means文档聚类初值选择算法.[J].刘远超;王晓龙;刘秉权;.高技术通讯.2006, 01
[5]  
MapReduce:Simplied data processing on large clusters..Jeffrey Dean;Sanjay Ghemawat;.Proceedings of the 6th Symposium on Operating System Design and Implementation.2004,
[6]  
Hadoop权威指南.[M].(美) 怀特 (White;T.) ; 著.清华大学出版社.2010,
[7]  
RACHET: An Efficient Cover-Based Merging of Clustering Hierarchies from Distributed Datasets..[J].Nagiza F. Samatova;George Ostrouchov;Al Geist;Anatoli V. Melechko.Distributed and Parallel Databases.2002, 2