一种基于向量空间模型的多层次文本分类方法

被引:67
作者
刘少辉
董明楷
张海俊
李蓉
史忠植
机构
[1] 中国科学院计算技术研究所智能信息处理重点实验室,中国科学院计算技术研究所智能信息处理重点实验室,中国科学院计算技术研究所智能信息处理重点实验室,中国科学院计算技术研究所智能信息处理重点实验室,中国科学院计算技术研究所智能信息处理重点实验室北京,北京
关键词
文本分类; 向量空间模型; 信息增益; 特征提取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
本文研究和改进了经典的向量空间模型 (VSM )的词语权重计算方法 ,并在此基础上提出了一种基于向量空间模型的多层次文本分类方法。也就是把各类按照一定的层次关系组织成树状结构 ,并将一个类中的所有训练文档合并为一个类文档 ,在提取各类模型时只在同层同一结点下的类文档之间进行比较 ;而对文档进行自动分类时 ,首先从根结点开始找到对应的大类 ,然后递归往下直到找到对应的叶子子类。实验和实际系统表明 ,该方法具有较高的正确率和召回率
引用
收藏
页码:8 / 14+26 +26
页数:8
相关论文
共 5 条
[1]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20
[2]   概念推理网及其在文本分类中的应用 [J].
李晓黎 ;
刘继敏 ;
史忠植 .
计算机研究与发展, 2000, (09) :1032-1038
[3]   文本分类中基于对数似然比测试的特征词选择方法 [J].
李国臣 .
中文信息学报, 1999, (04) :17-22
[4]   中文文档自动分类系统的设计与实现 [J].
邹涛 ;
王继成 ;
黄源 ;
张福炎 .
中文信息学报, 1999, (03) :27-33
[5]   基于特征相关性的汉语文本自动分类模型的研究 [J].
张月杰 ;
姚天顺 .
小型微型计算机系统, 1998, (08) :50-56