基于混合并行遗传算法的文本聚类研究

被引:11
作者
何婷婷 [1 ]
戴文华 [1 ]
焦翠珍 [2 ]
机构
[1] 华中师范大学计算机科学系
[2] 咸宁学院计算机系
关键词
计算机应用; 中文信息处理; 并行遗传算法; K-Means聚类; 文本聚类; 向量空间模型; 特征抽取;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对传统K-Means聚类算法对初始聚类中心的选择敏感,易陷入局部最优解的问题,提出一种基于混合并行遗传算法的文本聚类方法。该方法首先将文档集合表示成向量空间模型,并在文档向量中随机选择初始聚类中心形成染色体,然后结合K-Means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现。实验表明该算法相对于K-Means算法、简单遗传算法等文本聚类方法具有更高的精确度和全局寻优能力。
引用
收藏
页码:55 / 60
页数:6
相关论文
共 5 条
[1]  
基于开放式语料的汉语术语的自动抽取.[A].刘建舟;何婷婷;姬东鸿;刘晓华;.20th International Conference on Computer Processing of Oriental Languages.2003,
[2]   基于密度和对象方向聚类算法的改进 [J].
孟海东 ;
张玉英 .
计算机工程与应用, 2006, (20) :154-156
[3]   基于k-means聚类的无导词义消歧 [J].
陈浩 ;
何婷婷 ;
姬东鸿 .
中文信息学报, 2005, (04) :10-16
[4]   文档聚类中k-means算法的一种改进算法 [J].
万小军 ;
杨建武 ;
陈晓鸥 .
计算机工程, 2003, (02) :102-103+157
[5]   文本聚类中的贝叶斯后验模型选择方法 [J].
姜宁 ;
史忠植 .
计算机研究与发展, 2002, (05) :580-587