文本分类中词语权重计算方法的改进与应用

被引:28
作者
熊忠阳
黎刚
陈小莉
陈伟
机构
[1] 重庆大学计算机学院
关键词
文本表示; 向量空间模型; 特征选择; TFIDF;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本的形式化表示一直是信息检索领域关注的基础性问题。向量空间模型(Vector SpaceModel)中的tf.idf文本表示是该领域里得到广泛应用,并且取得较好效果的一种文本表示方法。词语在文本集合中的分布比例量上的差异是决定词语表达文本内容的重要因素之一。但是其IDF的计算,并没有考虑到特征项在类间的分布情况,也没有考虑到在类内分布相对均匀的特征项的权重应该比分布不均匀的要高,应该赋予其较高的权重。用改进的TFIDF选择特征词条、用KNN分类算法和遗传算法训练分类器来验证其有效性,实验表明改进的策略是可行的。
引用
收藏
页码:187 / 189
页数:3
相关论文
共 6 条
[1]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[2]   文本信息检索中的概率模型 [J].
张文进 .
情报杂志 , 2005, (03) :107-110
[3]   文本自动分类中特征权重算法的改进研究 [J].
徐凤亚 ;
罗振声 .
计算机工程与应用, 2005, (01) :181-184+220
[4]   自动文本分类中两种文本表示方式的比较 [J].
宋枫溪 ;
郑如冰 ;
王积忠 .
计算机工程, 2004, (18) :124-126
[5]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[6]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20