一种基于词共现图的文档主题词自动抽取方法

被引:28
作者
耿焕同
蔡庆生
于琨
赵鹏
机构
[1] 中国科学技术大学计算机科学技术系
关键词
自然语言处理; 词共现图; 主题词; TFIDF;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
主题词抽取是文本自动处理的基础性工作.在对现有主题词抽取方法深入研究的基础上,提出了一种基于词共现图的文档主题词自动抽取方法;该方法以基于词频统计方法为基础,利用在词共现图形成的主题信息以及不同主题间的连接特征信息自动地提取文档中的主题词,旨在找出一些非高频词且又对主题贡献大的词.实验表明了该抽取方法抽取出的主题词更能准确地符合了作者的主题.
引用
收藏
页码:156 / 162
页数:7
相关论文
共 4 条
[1]  
The limitations of term co-occurrence data for query expansion in documentretrieval systems. Peat H J,Willet P. Journal of American Societyfor Information Science . 1991
[2]  
Highlights:Language-and domain-in-dependent automatic indexing terms for abstrac-ting. Cohen J. Journal of American Society for InformationScience . 1995
[3]  
Machine learning in automated text categorization. Sebastiani F. ACM Computing Surveys . 2002
[4]  
A statistical approach to the mecha-nized encoding and searching of literary informa-tion. Luhn H P. IBM Journal of Research and Development . 1957