基于共词分析的文本主题词聚类与主题发现

被引:31
作者
王小华
徐宁
谌志群
机构
[1] 杭州电子科技大学计算机应用技术研究所
基金
浙江省自然科学基金;
关键词
共词分析; TF-IDF; 共词矩阵; Bisecting; K-means; 主题;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本主题检测可以很好的挖掘海量信息中的关键因子,本文主要通过基于共词分析方法对文本主题词进行聚类从而发现当前的主题,首先通过停用词过滤和TF-IDF关键词提取技术提取出主题词串,然后构建共词矩阵,最后通过Bisecting K-means算法对主题词串进行聚类分析,从而发现主题。实验结果表明,该方法对热点主题提取有一定的效果。
引用
收藏
页码:1621 / 1624
页数:4
相关论文
共 7 条
[1]   基于混合聚类的中文词聚类 [J].
史金成 ;
程转流 .
微计算机信息, 2010, 26 (15) :222-223
[2]   共词分析法研究(三)——共词聚类分析法的原理与特点 [J].
钟伟金 ;
李佳 ;
杨兴菊 .
情报杂志, 2008, (07) :118-120
[3]   共词分析法研究(一)——共词分析的过程与方式 [J].
钟伟金 ;
李佳 .
情报杂志, 2008, (05) :70-72
[4]   网络文本主题词的提取与组织研究 [J].
曾依灵 ;
许洪波 ;
白硕 .
中文信息学报, 2008, (03) :64-70+80
[5]   基于相似度的词聚类算法 [J].
袁里驰 ;
钟义信 .
微电子学与计算机, 2005, (08) :93-95
[6]   三个层面的中文文本主题自动提取研究 [J].
韩客松 ;
王永成 ;
沈洲 ;
吴芳芳 .
中文信息学报, 2001, (04) :20-27
[7]  
SPSS统计分析方法及应用[M]. - 电子工业出版社 , 薛薇编著, 2004