基于文本聚类与LDA相融合的微博主题检索模型研究

被引:44
作者
唐晓波
房小可
机构
[1] 武汉大学信息资源研究中心
关键词
文本聚类; 主题检索; 微博;
D O I
10.16353/j.cnki.1000-7490.2013.08.010
中图分类号
TP391.3 [检索机];
学科分类号
081203 ; 0835 ;
摘要
伴随着微博的日趋流行,对微博信息的检索逐渐成为人们获取第一消息的手段。其中文本聚类和主题发现是信息检索领域的有效方法,采用适当的方法是影响微博短文本信息检索质量的关键因素。文章针对文本聚类和LDA主题模型的互补特征,综合考虑了微博特殊文体和短文本聚类效率问题,提出了基于频繁词集的文本聚类和基于类簇的LDA主题挖掘相融合的微博检索方法,给出了针对微博文体的一种新的主题检索模型。实验表明,该方法不仅能有效地划分微博文本,并且能清晰地挖掘类簇中潜在主题。
引用
收藏
页码:85 / 90
页数:6
相关论文
共 12 条
[1]  
共现聚类分析的新方法:最大频繁项集挖掘[J]. 徐硕,乔晓东,朱礼军,张运良,薛春香.情报学报. 2012 (02)
[2]   基于MB-LDA模型的微博主题挖掘 [J].
张晨逸 ;
孙建伶 ;
丁轶群 .
计算机研究与发展, 2011, 48 (10) :1795-1802
[3]   文本聚类综述 [J].
吴启明 ;
易云飞 .
河池学院学报, 2008, (02) :86-91
[4]   海量短语信息文本聚类技术研究 [J].
王永恒 ;
贾焰 ;
杨树强 .
计算机工程, 2007, (14) :38-40
[5]   基于频繁词集聚类的海量短文分类方法 [J].
王永恒 ;
贾焰 ;
杨树强 .
计算机工程与设计, 2007, (08) :1744-1746+1780
[6]  
文本聚类分析结果可视化方法研究[J]. 吴江宁,王桂才.情报学报. 2011 (02)
[7]  
基于文本聚类的电子零售商信誉维度发现研究[J]. 赵学锋,陈传红,陈获帆,张金隆,周敏.情报学报. 2011 (01)
[8]  
Web搜索结果多层聚类方法研究[J]. 庞观松,蒋盛益,张黎莎,区雄发,赖旭明.情报学报. 2011 (05)
[9]  
基于语义准则函数的中文评论性文本极性聚类算法研究[J]. 徐斌,张玉峰.情报学报. 2011 (05)
[10]  
基于关键词共现分析的检索结果聚类研究[J]. 李枫林,何洲芳.情报学报. 2011 (08)