中文文本分类中的特征选择算法研究

被引:46
作者
胡佳妮
徐蔚然
郭军
邓伟洪
机构
[1] 北京邮电大学
[2] 北京邮电大学 北京
[3] 北京
关键词
文本分类; 特征选择; 评价函数;
D O I
10.13756/j.gtxyj.2005.03.014
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
比较了文档频率、信息增益、互信息、X2统计量、期望交叉熵、文本证据权以及几率比等7种常用于文本分类的特征选择算法。实验采用国家"八六三计划"中文文本语料库和Rocchio分类器对以上的特征选择算法分别进行评估,测评结果表明,几率比法的性能优于其它特征选择算法。
引用
收藏
页码:44 / 46
页数:3
相关论文
共 7 条
[1]   一种新的基于统计的自动文本分类方法 [J].
刘斌 ;
黄铁军 ;
程军 ;
高文 .
中文信息学报, 2002, (06) :18-24
[2]   网络文本数据分类技术与实现算法 [J].
李勇 ;
桑艳艳 .
情报学报, 2002, (01) :21-26
[3]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[4]   基于字频向量的中文文本自动分类系统 [J].
王梦云 ;
曹素青 .
情报学报, 2000, (06) :644-649
[5]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20
[6]  
模式识别.[M].边肇祺等编著;.清华大学出版社.2000,
[7]  
模式识别应用.[M].傅京孙 主编.北京大学出版社.1990,