一种基于词汇链的关键词抽取方法

被引:80
作者
索红光 [1 ]
刘玉树 [1 ]
曹淑英 [2 ]
机构
[1] 北京理工大学计算机科学技术学院
[2] 中国石油大学计算机与通信工程学院
关键词
计算机应用; 中文信息处理; 关键词标引; 关键词抽取; 词汇链; 词义相似度; 知网;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
081203 ; 0835 ; 081104 ; 0812 ; 1405 ;
摘要
关键词在文献检索、自动文摘、文本聚类/分类等方面有十分重要的作用。词汇链是由一系列词义相关的词语组成,最初被用于分析文本的结构。本文提出了利用词汇链进行中文文本关键词自动标引的方法,并给出了利用《知网》为知识库构建词汇链的算法。通过计算词义相似度首先构建词汇链,然后结合词频与区域特征进行关键词选择。该方法考虑了词汇之间的语义信息,能够改善关键词标引的性能。实验结果表明,与单纯的词频、区域方法相比,召回率提高了7.78%,准确率提高了9.33%。
引用
收藏
页码:25 / 30
页数:6
相关论文
共 8 条
[2]   关键词抽取方法的研究 [J].
郑家恒 ;
卢娇丽 .
计算机工程, 2005, (18) :194-196
[3]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[4]   关键词标引的若干问题探讨 [J].
丁春 .
编辑学报, 2004, (02) :105-106
[5]   中文文本的关键词自动抽取和模糊分类 [J].
何新贵 ;
彭甫阳 .
中文信息学报, 1999, (01) :10-16
[6]   中文文本中抽取特征信息的区域与技术 [J].
刘开瑛 ;
薛翠芳 ;
郑家恒 ;
周晓强 .
中文信息学报, 1998, (02) :2-8
[7]  
Learn ing to extract keyphrases from text .2 Turney P.D. National Research Counc il,Canada,NRC Techn i-cal Report ERB-1057 . 1999
[8]  
Lexical Cohesion Computed by Thesaural relations as an Ind icator of the Structure of Text .2 J Morris,G H irst. Computational L ingu istics . 1991