基于TF*IDF垃圾邮件过滤改进算法的研究

被引:2
作者
常凯
机构
[1] 湖北工业大学
关键词
TF*IDF; 权重; 分类; 垃圾邮件;
D O I
暂无
中图分类号
TP393.098 [];
学科分类号
080402 ;
摘要
传统TF*IDF算法是计算文档关键字的权值的重要方法。分析了传统TF*IDF算法在划分垃圾邮件和合法邮件时的缺点。即忽视了在一类文档中反复出现的单词,反复出现的单词往往最具有代表该类文档的特征,权重应该是比较高的。但这种情况,传统TF*IDF算法计算出结果恰恰相反,权重偏低,达不到设计者的要求。故通过改进了传统TF*IDF算法计算公式,来增加这些单词的权重。实验证明改进算法优于传统算法。
引用
收藏
页码:6928 / 6930
页数:3
相关论文
共 6 条
[1]   自动分类技术研究 [J].
毕静 .
电脑知识与技术, 2009, 5 (04) :1020-1021
[2]   文本分类方法对比研究 [J].
崔彩霞 ;
张朝霞 .
太原师范学院学报(自然科学版), 2007, (04) :52-54
[3]   基于信息熵的改进TFIDF特征选择算法 [J].
周炎涛 ;
唐剑波 ;
王家琴 .
计算机工程与应用, 2007, (35) :156-158+171
[4]   文本自动分类研究 [J].
王涛 .
图书馆学研究, 2007, (12) :40-43+46
[5]   基于文本分类TFIDF方法的改进与应用 [J].
张玉芳 ;
彭时名 ;
吕佳 .
计算机工程, 2006, (19) :76-78
[6]  
中文文本分类方法研究.[D].荣光.山东师范大学.2009, 09