学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于TF*IDF垃圾邮件过滤改进算法的研究
被引:2
作者
:
常凯
论文数:
0
引用数:
0
h-index:
0
机构:
湖北工业大学
常凯
机构
:
[1]
湖北工业大学
来源
:
电脑知识与技术
|
2010年
/ 6卷
/ 25期
关键词
:
TF*IDF;
权重;
分类;
垃圾邮件;
D O I
:
暂无
中图分类号
:
TP393.098 [];
学科分类号
:
080402 ;
摘要
:
传统TF*IDF算法是计算文档关键字的权值的重要方法。分析了传统TF*IDF算法在划分垃圾邮件和合法邮件时的缺点。即忽视了在一类文档中反复出现的单词,反复出现的单词往往最具有代表该类文档的特征,权重应该是比较高的。但这种情况,传统TF*IDF算法计算出结果恰恰相反,权重偏低,达不到设计者的要求。故通过改进了传统TF*IDF算法计算公式,来增加这些单词的权重。实验证明改进算法优于传统算法。
引用
收藏
页码:6928 / 6930
页数:3
相关论文
共 6 条
[1]
自动分类技术研究
[J].
毕静
论文数:
0
引用数:
0
h-index:
0
机构:
汉中市农业干部学校
毕静
.
电脑知识与技术,
2009,
5
(04)
:1020
-1021
[2]
文本分类方法对比研究
[J].
崔彩霞
论文数:
0
引用数:
0
h-index:
0
机构:
太原师范学院计算机系
崔彩霞
;
张朝霞
论文数:
0
引用数:
0
h-index:
0
机构:
太原师范学院计算机系
张朝霞
.
太原师范学院学报(自然科学版),
2007,
(04)
:52
-54
[3]
基于信息熵的改进TFIDF特征选择算法
[J].
周炎涛
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学电气与信息工程学院
周炎涛
;
唐剑波
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学电气与信息工程学院
唐剑波
;
王家琴
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学电气与信息工程学院
王家琴
.
计算机工程与应用,
2007,
(35)
:156
-158+171
[4]
文本自动分类研究
[J].
论文数:
引用数:
h-index:
机构:
王涛
.
图书馆学研究,
2007,
(12)
:40
-43+46
[5]
基于文本分类TFIDF方法的改进与应用
[J].
张玉芳
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
重庆大学计算机学院
张玉芳
;
论文数:
引用数:
h-index:
机构:
彭时名
;
论文数:
引用数:
h-index:
机构:
吕佳
.
计算机工程,
2006,
(19)
:76
-78
[6]
中文文本分类方法研究.[D].荣光.山东师范大学.2009, 09
←
1
→
共 6 条
[1]
自动分类技术研究
[J].
毕静
论文数:
0
引用数:
0
h-index:
0
机构:
汉中市农业干部学校
毕静
.
电脑知识与技术,
2009,
5
(04)
:1020
-1021
[2]
文本分类方法对比研究
[J].
崔彩霞
论文数:
0
引用数:
0
h-index:
0
机构:
太原师范学院计算机系
崔彩霞
;
张朝霞
论文数:
0
引用数:
0
h-index:
0
机构:
太原师范学院计算机系
张朝霞
.
太原师范学院学报(自然科学版),
2007,
(04)
:52
-54
[3]
基于信息熵的改进TFIDF特征选择算法
[J].
周炎涛
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学电气与信息工程学院
周炎涛
;
唐剑波
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学电气与信息工程学院
唐剑波
;
王家琴
论文数:
0
引用数:
0
h-index:
0
机构:
湖南大学电气与信息工程学院
王家琴
.
计算机工程与应用,
2007,
(35)
:156
-158+171
[4]
文本自动分类研究
[J].
论文数:
引用数:
h-index:
机构:
王涛
.
图书馆学研究,
2007,
(12)
:40
-43+46
[5]
基于文本分类TFIDF方法的改进与应用
[J].
张玉芳
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
重庆大学计算机学院
张玉芳
;
论文数:
引用数:
h-index:
机构:
彭时名
;
论文数:
引用数:
h-index:
机构:
吕佳
.
计算机工程,
2006,
(19)
:76
-78
[6]
中文文本分类方法研究.[D].荣光.山东师范大学.2009, 09
←
1
→