基于TF*IDF垃圾邮件过滤改进算法的研究

被引：2

作者：

常凯

机构：

[1] 湖北工业大学

来源：

电脑知识与技术 | 2010年 / 6卷 / 25期

关键词：

TF*IDF; 权重; 分类; 垃圾邮件;

D O I：

暂无

中图分类号：

TP393.098 [];

学科分类号：

080402 ;

摘要：

传统TF*IDF算法是计算文档关键字的权值的重要方法。分析了传统TF*IDF算法在划分垃圾邮件和合法邮件时的缺点。即忽视了在一类文档中反复出现的单词,反复出现的单词往往最具有代表该类文档的特征,权重应该是比较高的。但这种情况,传统TF*IDF算法计算出结果恰恰相反,权重偏低,达不到设计者的要求。故通过改进了传统TF*IDF算法计算公式,来增加这些单词的权重。实验证明改进算法优于传统算法。

引用

页码：6928 / 6930

页数：3

共 6 条

[1] 自动分类技术研究 [J].