基于隐含狄利克雷分布的文本主题提取对比研究

被引:21
作者
王静茹
陈震
机构
[1] 北华大学信息技术与传媒学院
关键词
文本挖掘; LDA模型; 主题提取效果; 评价方法;
D O I
10.13833/j.issn.1007-7634.2018.01.018
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的/意义】目前LDA模型在文本数据挖掘方法中占有重要的地位,已成为数据挖掘领域的研究热点。为了进一步提高LDA模型在文本挖掘中的应用效果,有必要对LDA模型文本主题提取效果进行对比研究。【方法/过程】本文提出了一种基于LDA模型的不同类型文本数据主题提取效果对比评价方法,先通过LDA模型对文本数据进行主题挖掘;再通过定量的主题提取效果评价方法进行对比研究。【结果/结论】本文以期刊论文、网络舆情事件话题、微博文本、调查问卷为文本数据源,实验结果表明LDA模型在处理语义信息明确逻辑关系合理的长文本数据时,主题提取效果较好。这为提高LDA模型的挖掘效率提供了一定的理论依据。
引用
收藏
页码:102 / 107
页数:6
相关论文
共 12 条
[2]   科技情报分析中LDA主题模型最优主题数确定方法研究 [J].
关鹏 ;
王曰芬 .
现代图书情报技术, 2016, (09) :42-50
[3]   基于LDA模型的科技期刊主题演化研究 [J].
李湘东 ;
张娇 ;
袁满 .
情报杂志, 2014, 33 (07) :115-121
[4]   基于LDA模型的网络舆情事件话题演化分析 [J].
林萍 ;
黄卫东 .
情报杂志, 2013, 32 (12) :26-30
[5]   基于文本聚类与LDA相融合的微博主题检索模型研究 [J].
唐晓波 ;
房小可 .
情报理论与实践, 2013, 36 (08) :85-90
[6]   基于LDA高频词扩展的中文短文本分类 [J].
胡勇军 ;
江嘉欣 ;
常会友 .
现代图书情报技术, 2013, (06) :42-48
[7]   基于潜在语义分析的微博主题挖掘模型研究 [J].
唐晓波 ;
王洪艳 .
图书情报工作, 2012, (24) :114-119
[8]   国内中文自动分词技术研究综述 [J].
奉国和 ;
郑伟 .
图书情报工作, 2011, 55 (02) :41-45
[9]   基于双向词频统计的非相关文献知识发现排序方法研究 [J].
张云秋 ;
郭柯磊 .
情报科学, 2009, 27 (08) :1240-1244
[10]   基于词频分布变化统计的术语抽取方法 [J].
周浪 ;
张亮 ;
冯冲 ;
黄河燕 .
计算机科学, 2009, 36 (05) :177-180