Web文档中词语权重计算方法的改进

被引:14
作者
初建崇 [1 ]
刘培玉 [2 ]
王卫玲 [2 ]
机构
[1] 海军航空工程学院训练部
[2] 山东师范大学信息科学与工程学院
关键词
向量空间模型; Web文本分类; 权重调整; 互信息;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
以向量空间模型作为Web文本的表示方法,对传统的TF*IDF公式进行了改进。首先,结合Web文本中HTML标签的修饰功能,体现了特征词在Web文本结构中的位置信息;其次,以广义信息论为理论基础,引入了基于二次熵的互信息作为权重计算公式的一项,体现了单词的类区分能力。实验验证了该方法的可行性和有效性。
引用
收藏
页码:192 / 194+198 +198
页数:4
相关论文
共 3 条
[1]   基于N层向量空间模型的信息检索算法 [J].
陈治平 ;
林亚平 ;
童调生 .
计算机研究与发展, 2002, (10) :1233-1237
[2]   向量空间法中单词权重函数的分析和构造 [J].
陆玉昌 ;
鲁明羽 ;
李凡 ;
周立柱 .
计算机研究与发展, 2002, (10) :1205-1210
[3]   关于文本特征抽取新方法的研究 [J].
李凡 ;
鲁明羽 ;
陆玉昌 .
清华大学学报(自然科学版), 2001, (07) :98-101