基于混合并行遗传算法的文本聚类研究

被引：11

作者：

何婷婷 ^{[1
]}

戴文华 ^{[1
]}

焦翠珍 ^{[2
]}

机构：

[1] 华中师范大学计算机科学系

[2] 咸宁学院计算机系

来源：

中文信息学报 | 2007年 / 04期

关键词：

计算机应用; 中文信息处理; 并行遗传算法; K-Means聚类; 文本聚类; 向量空间模型; 特征抽取;

D O I：

暂无

中图分类号：

TP181 [自动推理、机器学习];

学科分类号：

081104 ; 0812 ; 0835 ; 1405 ;

摘要：

针对传统K-Means聚类算法对初始聚类中心的选择敏感,易陷入局部最优解的问题,提出一种基于混合并行遗传算法的文本聚类方法。该方法首先将文档集合表示成向量空间模型,并在文档向量中随机选择初始聚类中心形成染色体,然后结合K-Means算法的高效性和并行遗传算法的全局优化能力,通过种群内的遗传、变异和种群间的并行进化、联姻,有效地避免了局部最优解的出现。实验表明该算法相对于K-Means算法、简单遗传算法等文本聚类方法具有更高的精确度和全局寻优能力。

引用

页码：55 / 60

页数：6

共 5 条

[1]

基于开放式语料的汉语术语的自动抽取.[A].刘建舟;何婷婷;姬东鸿;刘晓华;.20th International Conference on Computer Processing of Oriental Languages.2003,

[2] 基于密度和对象方向聚类算法的改进 [J].