基于可扩展LDA模型的微博话题特征抽取研究

被引:14
作者
邱明涛
马静
张磊
姚兆旭
机构
[1] 南京航空航天大学经济与管理学院
关键词
LDA模型; 微博话题; 话题特征; 特征抽取;
D O I
10.13833/j.cnki.is.2017.04.004
中图分类号
G206 [传播理论]; G353.1 [情报资料的分析和研究];
学科分类号
050302 ; 1205 ;
摘要
【目的/意义】提出一种基于可扩展LDA模型的微博话题特征抽取方法。【方法/过程】利用词语权重调整方法筛选高贡献度高频词语;基于bootstrap思想,迭代产生特征词条候选集;引入信息熵值理论筛选话题词条;并利用四维泛化分类实现对特征词条的泛化和归类。【结果/结论】本文以真实新浪微博数据为实验对象,实验结果表明基于扩展LDA模型的特征词提取方法可弥补传统LDA模型在话题可解释性上的不足,有效地对微博文本进行话题特征抽取。
引用
收藏
页码:22 / 26+31 +31
页数:6
相关论文
共 10 条
[1]   话题检测与跟踪的评测及研究综述 [J].
洪宇 ;
张宇 ;
刘挺 ;
李生 .
中文信息学报, 2007, (06) :71-87
[2]   基于特定领域的中文微博热点话题挖掘系统BTopicMiner [J].
李劲 ;
张华 ;
吴浩雄 ;
向军 .
计算机应用, 2012, 32 (08) :2346-2349
[3]   基于MB-LDA模型的微博主题挖掘 [J].
张晨逸 ;
孙建伶 ;
丁轶群 .
计算机研究与发展, 2011, 48 (10) :1795-1802
[4]  
Relational topic models for document networks. Chang, Jonathan,Blei, David M. Journal of Machine Learning Research;Proceedings of the 12th International Conference on Artificial Intelligence and Statistics, AISTATS 2009 . 2009
[5]  
The author-topicmodel for authors and documents. M. Rosen-Zvi,T. Griffiths,M. Steyvers,P. Smyth. UAI . 2004
[6]  
Characterizing Microblogs with Topic Models. RAMAGE D,DuMars S,LIEBLING D. ICWSM . 2010
[7]  
Modeling online reviews with multi-grain topic models. I. Titov,R. McDonald. Proceeding of the 17th International Conference on World Wide Web . 2008
[8]  
Reader’’s Emotion Prediction Based on Weighted Latent Dirichlet Allocation and Multi-label k-nearest Neighbor Model. Ruifeng XU,Lu YE. Journal of Computational Information System . 2013
[9]   支持向量机(SVM)主动学习方法研究与应用 [J].
张健沛 ;
徐华 .
计算机应用, 2004, (01) :1-3
[10]   命名实体的网络话题K-means动态检测方法 [J].
刘素芹 ;
柴松 .
智能系统学报, 2010, 5 (02) :122-126