一种基于kmeans聚类算法和LDA主题模型的文本检索方法及有效性验证

被引:39
作者
刘江华
机构
[1] 赣南师范学院图书馆
关键词
LDA(潜在狄利克雷分布); 主题模型; 聚类分析; 文本检索;
D O I
10.13833/j.cnki.is.2017.02.003
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的/意义】非常态分布状态下,LDA主题模型的检索效果较差;在数据量较小的情况下LDA主题模型计算出来的正确率较低。【方法/过程】本文提出一种基于Kmeans聚类算法的LDA主题模型检索方法,本检索方法以Kmeans算法为基础,对文本主题进行聚类和语义相关度分析,避免了传统LDA主题模型存在的诸多缺陷。【结果/结论】实验结果显示,不论是一般还是多义主题关键词的检索,本文的LDA主题模型在耗时和准确率上均比本文列出的其他三种主题模型具有明显的优势,进一步验证了本文提出方法的有效性。
引用
收藏
页码:16 / 21+26 +26
页数:7
相关论文
共 14 条
[1]   基于隐含狄利克雷分配的微博推荐模型研究 [J].
唐晓波 ;
房小可 .
情报科学, 2015, (02) :3-8
[3]   自然语言语义分析研究进展 [J].
秦春秀 ;
祝婷 ;
赵捧未 ;
张毅 .
图书情报工作, 2014, 58 (22) :130-137
[5]  
融合科技文献内外部特征的主题模型发展综述[J]. 张晗,徐硕,乔晓东.情报学报. 2014 (10)
[6]   基于LDA与新兴主题特征分析的新兴主题探测研究 [J].
范云满 ;
马建霞 .
情报学报, 2014, 33 (07) :698-711
[7]   科技论文关键词使用中存在的问题及解决方法附视频 [J].
王丹丹 .
出版发行研究, 2013, (04) :102-104
[8]   基于LDA模型的研究领域热点及趋势分析 [J].
杨星 ;
李保利 ;
金明举 .
计算机技术与发展, 2012, 22 (10) :66-69+74
[9]  
Statistical topic models for multi-label document classification[J] . Timothy Rubin,America Chambers,Padhraic Smyth,Mark Steyvers.Machine Learning . 2012 (1)
[10]   A fast k-means clustering algorithm using cluster center displacement [J].
Lai, Jim Z. C. ;
Huang, Tsung-Jen ;
Liaw, Yi-Ching .
PATTERN RECOGNITION, 2009, 42 (11) :2551-2556