主题模型LDA的多文档自动文摘

被引:24
作者
杨潇 [1 ]
马军 [2 ]
杨同峰 [2 ]
杜言琦 [2 ]
邵海敏 [2 ]
机构
[1] 山东经济学院信息管理学院
[2] 山东大学计算机科学与技术学院
关键词
多文档自动文摘; 句子分值计算; 主题模型; LDA; 主题数目;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模型中具有代表性的概率生成性模型之一.提出了一种基于LDA的文摘方法,该方法以混乱度确定LDA模型的主题数目,以Gibbs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主题的重要程度,并根据LDA模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多文档摘要测试集DUC2002上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势.
引用
收藏
页码:169 / 176
页数:8
相关论文
共 20 条
[1]  
Multi-Document Summarization Using Cluster-Based Link Analysis. X J Wan,J W Yang. Proc of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval . 2008
[2]  
The Impact of Frequency on Summari-zation. Nenkova A,Vanderwende L. Technical Report,MSR-TR-2005-101 Microsoft Research . 2005
[3]  
Latent Dirichlet learning for document summarization. CHANG Y L,CHIEN J T. IEEE International Confer-ence on Acoustics,Speech,and Signal Processing . 2009
[4]  
Extracting important sentences with support vector machines. Hirao, T,Isozaki, H,Maeda, E,Matsumoto, Y. Proceedings of the 19th international conference on Computational linguistics . 2002
[5]  
Automatic generic document summarization based on non-negative matrix factorization. J H Lee,P Sun,C M Ahn,etc. Information Processing Letters . 2009
[6]  
Introduction to the Special Issue on Summarization. RADEV DR,HOVY E,MCKEOWN K. Computational Linguistics . 2002
[7]  
The automated acquisition of topic sig-natures FOR text summarization. LINC Y,,HOVY E. Proc of the18th In-ternational Conference on Computational Linguistics . 2000
[8]   基于局部主题判定与抽取的多文档文摘技术 [J].
秦兵 ;
刘挺 ;
李生 .
自动化学报, 2004, (06) :905-910
[9]   基于LDA模型的文本分割 [J].
石晶 ;
胡明 ;
石鑫 ;
戴国忠 .
计算机学报, 2008, (10) :1865-1873
[10]   基于信息融合的多文档自动文摘技术 [J].
徐永东 ;
徐志明 ;
王晓龙 .
计算机学报, 2007, (11) :2048-2054