基于信息论的潜在概念获取与文本聚类

被引:9
作者
李晓光 [1 ]
于戈 [2 ]
王大玲 [2 ]
鲍玉斌 [2 ]
机构
[1] 辽宁大学信息学院
[2] 东北大学信息科学与工程学院
关键词
潜在概念; 主题; 文本聚类; 信息论;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法.
引用
收藏
页码:2276 / 2284
页数:9
相关论文
共 2 条
[1]   基于Bayes潜在语义模型的半监督Web挖掘 [J].
宫秀军 ;
史忠植 .
软件学报, 2002, (08) :1508-1514
[2]  
Document clustering using word clusters via the information bottleneck .2 Slonim N,Tishby N. Proc. of the 23rd Annual Int’’l ACM SIGIR Conf. on Research and Development in Information Retrieval . 2000