基于监督学习的中文情感分类技术比较研究

被引:131
作者
唐慧丰
谭松波
程学旗
机构
[1] 中国科学院计算技术研究所
关键词
计算机应用; 中文信息处理; 情感分类; 文本分类; 语言模型; 中文信息处理;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,以中心向量法、KNN、Winnow、Na ve Bayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明:采用Bi Grams特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。
引用
收藏
页码:88 / 94+108 +108
页数:8
相关论文
共 5 条
[1]   中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[2]   中文文本分类中特征抽取方法的比较研究 [J].
代六玲 ;
黄河燕 ;
陈肇雄 .
中文信息学报, 2004, (01) :26-32
[3]   Machine learning in automated text categorization [J].
Sebastiani, F .
ACM COMPUTING SURVEYS, 2002, 34 (01) :1-47
[4]   On the Optimality of the Simple Bayesian Classifier under Zero-One Loss [J].
Pedro Domingos ;
Michael Pazzani .
Machine Learning, 1997, 29 :103-130
[5]  
Automatic Opinion Polarity Classification of Movie Reviews .2 Franco Salvetti,Stephen Lewis,Christoph Reichenbach. Colorado research in linguistics . 2004