独立于语种的文本分类方法

被引：56

作者：

黄萱菁

吴立德

石崎洋之

徐国伟

机构：

[1] 复旦大学计算机科学系!上海,复旦大学计算机科学系!上海,富士通研究开发中心有限公司!北京,富士通研究开发中心有限公司!北京

来源：

关键词：

文本分类; 特征抽取; 机器学习;

D O I：

暂无

中图分类号：

TP391 [信息处理（信息加工）];

学科分类号：

081203 ; 0835 ;

摘要：

文本分类是指在给定分类体系下 ,根据文本的内容自动确定文本类别的过程。本文提出了一个基于机器学习的、独立于语种的文本分类模型 ,并对模型中的特征抽取、分类器和评价方法进行了详细的介绍。该模型已经在中文和日文两个语种的新闻语料上得到实现 ,并获得了较好的分类性能。

引用

页码：1 / 7

页数：7