基于字频向量的中文文本自动分类系统

被引:14
作者
王梦云
曹素青
机构
[1] 山西大学成人教育学院!太原
关键词
文本分类; 中文; 自动分类; 字频向量; 映射函数; 语料库; 汉字;
D O I
暂无
中图分类号
G254 [文献标引与编目];
学科分类号
1205 ; 120501 ;
摘要
本文提出了一种根据汉字统计特性和基于实例映射的中文文本自动分类方法。该方法采用汉字字频向量作为文本的表示方法。它的显著特点是引入线性最小二乘方估计技术建立文本分类器模型 ,通过对训练集语料的手工分类标引以及对文本和类别间的相关性判定的学习 ,实现了基于全局最小错误率的汉字—类别两个向量空间的映射函数 ,并用该函数对测试文本进行分类。
引用
收藏
页码:644 / 649
页数:6
相关论文
共 3 条
[1]   一个中文文本自动分类数学模型 [J].
曹素青 ;
曾伏虎 ;
曹焕光 .
情报学报, 1999, (01) :27-32
[2]   汉语语料的自动分类 [J].
吴军,王作英,禹锋,王侠 .
中文信息学报, 1995, (04) :25-32
[3]   档案自动分类算法研究 [J].
苏新宁,徐进鸿,史九林 .
情报学报, 1995, (03) :194-200