文本分类中互信息特征选择方法的研究

被引:27
作者
范小丽
刘晓霞
机构
[1] 西北大学信息科学与技术学院
关键词
文本分类; 特征选择; 互信息; 平衡因子; 特征分布差异;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对互信息特征选择方法由于没有很好结合正相关特征和负相关特征,影响在不平衡语料集上分类效果的问题,用平衡因子调整正相关和负相关特征比例,加强特征选择时负相关特征的作用。同时引入特征分布差异因子,区分类强相关特征,提高分类效果。最后通过实验证明,改进的互信息特征选择方法具有可行性和有效性。
引用
收藏
页码:123 / 125
页数:3
相关论文
共 5 条
[1]   文本分类中词语权重计算方法的改进与应用 [J].
熊忠阳 ;
黎刚 ;
陈小莉 ;
陈伟 .
计算机工程与应用, 2008, (05) :187-189
[2]   文本分类中基于基尼指数的特征选择算法研究 [J].
尚文倩 ;
黄厚宽 ;
刘玉玲 ;
林永民 ;
瞿有利 ;
董红斌 .
计算机研究与发展, 2006, (10) :1688-1694
[3]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[4]   Feature subset selection from positive and unlabelled examples [J].
Calvo, Borja ;
Larranaga, Pedro ;
Lozano, Jose A. .
PATTERN RECOGNITION LETTERS, 2009, 30 (11) :1027-1036
[5]  
Feature selection for text categorization on imbalanced data[J] . Zhaohui Zheng,Xiaoyun Wu,Rohini Srihari.ACM SIGKDD Explorations Newsletter . 2004 (1)