改进的概率潜在语义分析下的文本聚类算法

被引:15
作者
张玉芳
朱俊
熊忠阳
机构
[1] 重庆大学计算机学院
基金
中国博士后科学基金;
关键词
文本聚类; 概率潜在语义分析; 参数初始化; 潜在语义分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法有效解决了参数随机初始化问题。经实验验证,所提出的方法对文本聚类的归一化互信息(NM I)和准确度都有明显提高。
引用
收藏
页码:674 / 676+693 +693
页数:4
相关论文
共 1 条
[1]  
Asimilarity-basedprobabilitymodelforlatentsemanticindexing.2DingCHQ.Proceedingsofthe22ndAnnualInternationalACMSIGIRConference.1999