独立于语种的文本分类方法

被引:56
作者
黄萱菁
吴立德
石崎洋之
徐国伟
机构
[1] 复旦大学计算机科学系!上海,复旦大学计算机科学系!上海,富士通研究开发中心有限公司!北京,富士通研究开发中心有限公司!北京
关键词
文本分类; 特征抽取; 机器学习;
D O I
暂无
中图分类号
TP391 [信息处理(信息加工)];
学科分类号
081203 ; 0835 ;
摘要
文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。
引用
收藏
页码:1 / 7
页数:7
相关论文
共 3 条
[1]   中文文档自动分类系统的设计与实现 [J].
邹涛 ;
王继成 ;
黄源 ;
张福炎 .
中文信息学报, 1999, (03) :27-33
[2]   基于向量空间模型的文档分类系统 [J].
黄萱菁 ;
吴立德 .
模式识别与人工智能, 1998, 11 (02) :147-153
[3]   汉语语料的自动分类 [J].
吴军,王作英,禹锋,王侠 .
中文信息学报, 1995, (04) :25-32