基于文本分类TFIDF方法的改进与应用

被引:117
作者
张玉芳 [1 ]
彭时名 [1 ]
吕佳 [2 ]
机构
[1] 重庆大学计算机学院
[2] 重庆师范大学数学与计算机科学学院
关键词
文本分类; 特征选择; TFIDF; 类别区分;
D O I
暂无
中图分类号
TP301.6 [算法理论];
学科分类号
081202 ;
摘要
TFIDF是文档特征权值表示常用方法。该方法简单易行,但低估了在一个类中频繁出现的词条,该词条是能够代表这个类的文本特征的,应该赋予其较高的权重。通过修改TFIDF中IDF的表达式,来增加那些在一个类中频繁出现的词条的权重,用改进的TFIDF选择特征词条、用遗传算法训练分类器来验证其有效性。该方法优于其它算法,实验表明了改进的策略是可行的。
引用
收藏
页码:76 / 78
页数:3
相关论文
共 3 条
[1]   一种新的基于统计的自动文本分类方法 [J].
刘斌 ;
黄铁军 ;
程军 ;
高文 .
中文信息学报, 2002, (06) :18-24
[2]   用Naive Bayes方法协调分类Web网页 [J].
范焱 ;
郑诚 ;
王清毅 ;
蔡庆生 ;
刘洁 .
软件学报, 2001, (09) :1386-1392
[3]   WWW上的信息挖掘技术及实现 [J].
邹涛 ;
王继成 ;
朱华宇 ;
金翔宇 ;
张福炎 .
计算机研究与发展 , 1999, (08) :124-129