基于向量空间模型的文本分类系统的研究与实现

被引:40
作者
陈治纲
何丕廉
孙越恒
郑小慎
机构
[1] 天津大学电子信息工程学院,天津大学电子信息工程学院,天津大学电子信息工程学院,天津大学电子信息工程学院天津,天津,天津,天津
关键词
计算机应用; 中文信息处理; 文本分类; 测试指标; 特征抽取; 二级分类模式;
D O I
暂无
中图分类号
TP311.52 [];
学科分类号
081202 ; 0835 ;
摘要
文本分类是信息处理的一个重要的研究课题 ,它可以有效的解决信息杂乱的现象并有助于定位所需的信息。本文综合考虑了频度、分散度和集中度等几项测试指标 ,提出了一种新的特征抽取算法 ,克服了传统的从单一或片面的测试指标进行特征抽取所造成的特征“过度拟合”问题 ,并基于此实现了二级分类模式的文本分类系统。和类中心分类法相比 ,实验结果表明二级分类模式具有较高的精度和召回率。
引用
收藏
页码:36 / 41
页数:6
相关论文
共 5 条
[1]   文本分类中的特征抽取 [J].
秦进 ;
陈笑蓉 ;
汪维家 ;
陆汝占 .
计算机应用, 2003, (02) :45-46
[2]   一种基于向量空间模型的多层次文本分类方法 [J].
刘少辉 ;
董明楷 ;
张海俊 ;
李蓉 ;
史忠植 .
中文信息学报, 2002, (03) :8-14+26
[3]   独立于语种的文本分类方法 [J].
黄萱菁 ;
吴立德 ;
石崎洋之 ;
徐国伟 .
中文信息学报, 2000, (06) :1-7
[4]   概念推理网及其在文本分类中的应用 [J].
李晓黎 ;
刘继敏 ;
史忠植 .
计算机研究与发展, 2000, (09) :1032-1038
[5]   An Evaluation of Statistical Approaches to Text Categorization [J].
Yiming Yang .
Information Retrieval, 1999, 1 (1-2) :69-90