向量空间法中单词权重函数的分析和构造

被引:117
作者
陆玉昌
鲁明羽
李凡
周立柱
机构
[1] 清华大学计算机科学与技术系,清华大学计算机科学与技术系,清华大学计算机科学与技术系,清华大学计算机科学与技术系北京,北京,北京,北京
关键词
向量空间模型; 权重调整; 文本分类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本分类是文本挖掘的基础与核心 ,是近年来数据挖掘和网络挖掘的一个研究热点 ,在传统的情报检索、网站索引体系结构的建立和 Web信息检索等方面占有重要地位 .深入分析了一种简单而常用的经典文本分类模型——向量空间模型 ( vector space model,VSM)——的实质 ,找出了其分类精度低的原因 ,提出了一种利用特征筛选中的评估函数代替 IDF函数进行权值调整的方法 ,并对采用各种不同评估函数进行权值调整的性能进行了理论分析和实验比较 ,提出了一种构造新的高性能评估函数的新颖方法 .
引用
收藏
页码:1205 / 1210
页数:6
相关论文
共 2 条
[1]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101
[2]  
高等数理统计.[M].茆诗松等编著;.施普林格出版社.1998,