文档中词语权重计算方法的改进

被引：94

作者：

鲁松

李晓黎

白硕

王实

机构：

[1] 中国科学院计算技术研究所软件研究室!北京,中国科学院计算技术研究所软件研究室!北京,中国科学院计算技术研究所软件研究室!北京,中国科学院计算技术研究所软件研究室!北京

来源：

中文信息学报 | 2000年 / 06期

关键词：

文本表示; 向量空间模型; 词语分布比例; 信息增益; 文本分类;

D O I：

暂无

中图分类号：

TP391 [信息处理（信息加工）];

学科分类号：

081203 ; 0835 ;

摘要：

文本的形式化表示一直是文本检索、自动文摘和搜索引擎等信息检索领域关注的基础性问题。向量空间模型 (VectorSpaceModel)中的tf.idf文本表示是该领域里得到广泛应用并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一 ,但现在tf.idf方法无法把握这一因素。针对这个问题 ,本文引入信息论中信息增益的概念 ,提出一种对tf.idf的改进方法tf.idf.IG文本表示方法。该方法将词语的信息增益作为一个文本表示的一个因子 ,来衡量词语在文本集合中分布比例在量上的差异。在文本分类实验中 ,tf.idf.IG文本表示的向量空间模型的分类效果要好于tf.idf方法 ,验证了改进方法tf.idf.IG的有效性和可行性。

引用

页码：8 / 13+20 +20

页数：7