HTML文档分类中的词元权重算法

被引:1
作者
栾虹
机构
[1] 济南大学信息科学与工程学院
[2] 济南
关键词
信息检索; 文本分类; 权重函数; 分类算法;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
针对WWW的HTML结构,采用TFE表示,给出一种新的TFE实现方法.在此基础上,探讨了基于向量空间模型的词元权重函数的构造方法,描述了权重函数,研究了先前比较典型权重函数.把整个文档作为一个空间,提出一种更有效的文本权重调整方法.试验结果表明,该算法对文本分类的准确率有明显提高.
引用
收藏
页码:22 / 25
页数:4
相关论文
共 2 条
[1]  
New retrieval approaches using SMART. Burckley C,Singhal A,Mitra M. Proceedings of the Fourth Text Retrieval Conference(TREC+4) . 1995
[2]  
A re-examination of text categorization methods. Yang Yiming,Liu Xin. SIGIR . 1999