结合LDA和谱聚类的多文档摘要

被引:8
作者
付玲
张晖
机构
[1] 西南科技大学计算机科学与技术学院
关键词
Latent Dirichlet Allocation(LDA); Gibbs抽样; 谱聚类; 多文档摘要;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
自动文摘技术的目标是致力于将冗长的文档内容压缩成较为简短的几段话,将信息全面、简洁地呈现给用户,提高用户获取信息的效率和准确率。所提出的方法在LDA(Latent Dirichlet Allocation)的基础上,使用Gibbs抽样估计主题在单词上的概率分布和句子在主题上的概率分布,结合LDA参数和谱聚类算法提取多文档摘要。该方法使用线性公式来整合句子权重,提取出字数为400字的多文档摘要。使用ROUGE自动摘要评测工具包对DUC2002数据集评测摘要质量,结果表明,该方法能有效地提高摘要的质量。
引用
收藏
页码:142 / 145+154 +154
页数:5
相关论文
共 1 条
[1]   基于谱聚类的多文档摘要新方法 [J].
林立 ;
胡侠 ;
朱俊彦 .
计算机工程, 2010, 36 (22) :64-65+68