一种结合词项语义信息和TF-IDF方法的文本相似度量方法

被引:224
作者
黄承慧 [1 ,2 ]
印鉴 [1 ]
侯昉 [2 ]
机构
[1] 中山大学信息科学与技术学院
[2] 广东金融学院计算机科学与技术系
基金
广东省科技计划;
关键词
文本聚类; 词项语义相似度; 文本相似度; 自然语言处理;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法.
引用
收藏
页码:856 / 864
页数:9
相关论文
共 23 条
[1]  
Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy. Jay J Jiang,David W Conrath. Proceedings of the 10th International Conference on Research on Computational Linguistics . 1997
[2]  
An information-theoretic definition of similarity. Dekang Lin. Proceedings of the 15th International Conference on Machine Learning . 1998
[3]  
Introduction to Data Mining. Pang-Ning Tan,Michael Steinbach,Vipin Kumar. . 2005
[4]  
Random walks fortext semantic similarity. Ramage D,Rafferty A N,Manning C D. Proceedings of the 2009 Workshopon Graph-based Methods for Natural Language Processing . 2009
[5]  
A new sentence similarity measure and sentencebased extractive technique for automatic text summarization. Ramiz M A. Expert Systems With Applications . 2009
[6]  
Text information retrieval based onconcept semantic similarity. Gang L,Cheng Z,Li Z. Proceedings of the 5th Interna-tional Conference on Semantics,Knowledge and Grid . 2009
[7]  
Semantic distance in WordNet:Anexperimental,application-oriented evaluation of five meas-ures. Budanitsky A,Hirst G. Proceedings of the 2nd Meeting of the North AmericanChapter of the Assoc for Computational Linguistics . 2001
[8]  
Reuters-21578 text categorization test collection,Distribu-tion 1.0. http://www.daviddlewis.com/resources/testcollections/reuters21578/ . 1997
[9]  
BBC Dataset. http://mlg.ucd.ie .
[10]  
LingPipe. http://www.alias-i.com .