改进的概率潜在语义分析下的文本聚类算法

被引：15

作者：

张玉芳

朱俊

熊忠阳

机构：

[1] 重庆大学计算机学院

来源：

计算机应用 | 2011年 / 31卷 / 03期

基金：

中国博士后科学基金;

关键词：

文本聚类; 概率潜在语义分析; 参数初始化; 潜在语义分析;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法有效解决了参数随机初始化问题。经实验验证,所提出的方法对文本聚类的归一化互信息(NM I)和准确度都有明显提高。

引用

页码：674 / 676+693 +693

页数：4