基于LDA模型和话题过滤的研究主题演化分析

被引:29
作者
李保利 [1 ,2 ]
杨星 [1 ]
机构
[1] 河南工业大学粮食信息处理与控制教育部重点实验室
[2] 数字出版技术国家重点实验室
关键词
LDA模型; 主题演化; 种子话题; 话题过滤; 加权线性组合;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对目前科学技术文献数量激增、难以从总体上分析把握的现状,提出一种从科技文献中获得研究主题特征词并展现其演化趋势的方法.该方法先利用LDA(Latent Dirichlet Allocation)模型对不同时间片内的话题进行自动抽取,得到不同数量的话题.然后,通过话题过滤剔除意义有限的话题,并借助简单启发式规则选择种子话题.最后,再利用语义相关度将相邻时间片内内容相近的种子话题联系起来,以得到研究主题的演化趋势.实验结果表明,在不对话题生成进行人工干预的前提下,本文方法较真实地描述了研究主题强度和内容随时间的演化趋势,避免了无意义话题对研究主题演化的负面影响.
引用
收藏
页码:2738 / 2743
页数:6
相关论文
共 4 条
[1]   基于种子文档LDA话题的演化研究 [J].
单斌 ;
李芳 .
现代图书情报技术, 2011, (Z1) :104-109
[2]   基于LDA模型的新闻话题的演化 [J].
楚克明 ;
李芳 .
计算机应用与软件, 2011, 28 (04) :4-7+26
[3]   一种基于LDA的在线主题演化挖掘模型 [J].
崔凯 ;
周斌 ;
贾焰 ;
梁政 .
计算机科学, 2010, 37 (11) :156-159+193
[4]   基于LDA话题演化研究方法综述 [J].
单斌 ;
李芳 .
中文信息学报, 2010, (06) :43-49+68