基于TFIDF的特征选择方法

被引:23
作者
王美方
刘培玉
朱振方
机构
[1] 山东师范大学信息科学与工程学院
关键词
特征选择; 术语频率; 逆文档频率; 文本分类; 评价函数;
D O I
10.16208/j.issn1000-7024.2007.23.071
中图分类号
TP393.01 [];
学科分类号
081201 ; 1201 ;
摘要
在文本分类系统中,特征选择方法是一种有效的降维方法。在分析了几种常用的特征选择评价函数之后,将权值计算函数应用于特征选择,并基于改进的TFIDF方法提出了一种新的评价函数,它将类别信息引入到特征项中,提取出与类别相关的特征项,弥补了TFIDF的缺陷。实验证明该方法简单可行,有助于提高所选特征子集的有效性。
引用
收藏
页码:5795 / 5796+5799 +5799
页数:3
相关论文
共 8 条
[1]   自动文本分类特征选择方法研究 [J].
张海龙 ;
王莲芝 .
计算机工程与设计, 2006, (20) :3838-3841
[2]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[3]   基于TFIDF的文本特征选择方法 [J].
柴玉梅 ;
王宇 .
微计算机信息, 2006, (24) :24-26
[4]   文本分类中一种新的特征选择方法 [J].
王秀娟 ;
郭军 ;
郑康锋 .
计算机应用, 2005, (03) :661-663
[5]   一种新的基于统计的自动文本分类方法 [J].
刘斌 ;
黄铁军 ;
程军 ;
高文 .
中文信息学报, 2002, (06) :18-24
[6]   WWW上的信息挖掘技术及实现 [J].
邹涛 ;
王继成 ;
朱华宇 ;
金翔宇 ;
张福炎 .
计算机研究与发展 , 1999, (08) :124-129
[7]  
知识发现[M]. - 清华大学出版社 , 史忠植著, 2002
[8]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90