文本分类中的特征降维方法研究

被引:33
作者
张玉芳
万斌候
熊忠阳
机构
[1] 重庆大学计算机学院
关键词
文本分类; 特征降维; 集中度; 分散度; 评估函数;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
特征降维是文本分类过程中的一个重要环节,为了提高特征降维的准确率,选出能有效区分文本类别的特征词,提高文本分类的效果,提出了结合文本类间集中度、文本类内分散度和词频类间集中度的特征降维方法。当获取特征词在文本集上的整体评价时,提出了一种新的全局评估函数,用最大值与次大值之差作为最终的评价函数值。实验比较了该方法与传统的特征降维方法,结果表明该方法在中文文本分类中具有较好的降维效果。
引用
收藏
页码:2541 / 2543
页数:3
相关论文
共 7 条
[1]   基于云模型的文本特征自动提取算法 [J].
代劲 ;
何中市 ;
胡峰 .
中南大学学报(自然科学版), 2011, 42 (03) :714-720
[2]   四种分类方法性能比较 [J].
奉国和 .
计算机工程与应用 , 2011, (08) :25-26+145
[3]   文本分类中互信息特征选择方法的研究 [J].
范小丽 ;
刘晓霞 .
计算机工程与应用 , 2010, (34) :123-125
[4]   基于类别分布的特征选择框架 [J].
靖红芳 ;
王斌 ;
杨雅辉 ;
徐燕 .
计算机研究与发展, 2009, 46 (09) :1586-1593
[5]   TFIDF算法研究综述 [J].
施聪莺 ;
徐朝军 ;
杨晓江 .
计算机应用, 2009, 29(S1) (S1) :167-170+180
[6]   文本分类中特征选择的约束研究 [J].
徐燕 ;
李锦涛 ;
王斌 ;
孙春明 ;
张森 .
计算机研究与发展 , 2008, (04) :596-602
[7]   基于机器学习的文本分类技术研究进展 [J].
苏金树 ;
张博锋 ;
徐昕 .
软件学报, 2006, (09) :1848-1859