学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
改进的概率潜在语义分析下的文本聚类算法
被引:15
作者
:
张玉芳
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
张玉芳
论文数:
引用数:
h-index:
机构:
朱俊
熊忠阳
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
熊忠阳
机构
:
[1]
重庆大学计算机学院
来源
:
计算机应用
|
2011年
/ 31卷
/ 03期
基金
:
中国博士后科学基金;
关键词
:
文本聚类;
概率潜在语义分析;
参数初始化;
潜在语义分析;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
概率潜在语义分析(PLSA)模型用期望最大化(EM)算法进行参数训练,由于算法参数的随机初始化,致使聚类的效果过度拟合且过分依赖于参数初始值。将潜在语义分析(LSA)模型参数概率化,用以初始化概率潜在语义分析模型的参数,得到的改进算法有效解决了参数随机初始化问题。经实验验证,所提出的方法对文本聚类的归一化互信息(NM I)和准确度都有明显提高。
引用
收藏
页码:674 / 676+693 +693
页数:4
相关论文
共 1 条
[1]
Asimilarity-basedprobabilitymodelforlatentsemanticindexing.2DingCHQ.Proceedingsofthe22ndAnnualInternationalACMSIGIRConference.1999
←
1
→
共 1 条
[1]
Asimilarity-basedprobabilitymodelforlatentsemanticindexing.2DingCHQ.Proceedingsofthe22ndAnnualInternationalACMSIGIRConference.1999
←
1
→