基于VSM的中文文本分类系统的设计与实现

被引:40
作者
张东礼
汪东升
郑纬民
机构
[1] 清华大学计算机科学与技术系,清华大学计算机科学与技术系,清华大学计算机科学与技术系北京,北京,北京
关键词
文字信息处理; 文本分类; 分类算法; 特征提取; 向量空间模型;
D O I
10.16511/j.cnki.qhdxxb.2003.09.036
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
文本分类是指在给定分类体系下,根据文本的内容自动确定文本类别的过程。该文阐述了一个基于向量空间模型的中文文本分类系统的设计和实现。对文本分类系统的系统结构、预处理、特征提取、训练算法、分类算法等进行了详细介绍。引入标题权重系数改进词语权重,并提出了一种新的分类算法。实验测试结果表明查全率和准确率均达到90%左右,而且标题权重的引入和新分类算法的实施有效地改善了分类性能。
引用
收藏
页码:1288 / 1291
页数:4
相关论文
共 3 条
[1]   网络文本数据分类技术与实现算法 [J].
李勇 ;
桑艳艳 .
情报学报, 2002, (01) :21-26
[2]   基于向量空间模型的文本自动分类系统的研究与实现 [J].
庞剑锋 ;
卜东波 ;
白硕 .
计算机应用研究, 2001, (09) :23-26
[3]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20