分类中的类重叠问题及其处理方法研究

被引:9
作者
熊海涛 [1 ,2 ]
吴俊杰 [2 ]
刘洪甫 [2 ]
刘鲁 [2 ]
机构
[1] 北京工商大学计算机与信息工程学院
[2] 北京航空航天大学经济管理学院
基金
国家自然科学基金重大研究计划;
关键词
数据挖掘; 分类; 类重叠; 类不均衡; 支持向量数据描述;
D O I
暂无
中图分类号
TP18 [人工智能理论];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
类重叠问题是数据挖掘与机器学习领域的瓶颈问题之一.如果其中还存在类不均衡问题时,情况变得更加复杂.有鉴于此,本文在已有文献基础上归纳了三种类重叠学习算法及提出一种新的方法:分隔法,并首次将支持向量数据描述算法用于实际数据的重叠样本识别,对类重叠问题及其与类不均衡问题的相互影响进行了系统研究.在真实数据上采用五种分类器的实验结果表明:1)多数情况下"分隔法"是表现最佳的类重叠学习算法;2)分隔法通常对基于分界面而非规则的分类器更为有效;3)分隔法在类不均衡问题中表现很好,当基础分类器为支持向量机时尤为突出.最后针对支持向量机的实验结果给出了理论分析.
引用
收藏
页码:8 / 21
页数:14
相关论文
共 15 条
[1]   LSVDD:基于局部支持向量数据描述的稀有类分析算法 [J].
熊海涛 ;
吴俊杰 ;
刘鲁 ;
李明 .
系统工程理论与实践, 2012, 32 (08) :1784-1792
[2]   基于满意属性选择的客户流失预测 [J].
夏国恩 .
管理学报, 2010, 7 (06) :856-860
[3]   多项式光滑的半监督支持向量分类机 [J].
刘叶青 ;
刘三阳 ;
谷明涛 .
系统工程理论与实践, 2009, (07) :113-118
[4]   基于模糊支持向量机的上市公司财务困境预测 [J].
杨海军 ;
太雷 .
管理科学学报, 2009, 12 (03) :102-110
[5]   基于代价敏感性学习的客户价值细分 [J].
邹鹏 ;
李一军 ;
郝媛媛 .
管理科学学报, 2009, 12 (01) :48-56
[6]  
COG: local decomposition for rare class analysis[J] . Junjie Wu,Hui Xiong,Jian Chen.Data Mining and Knowledge Discovery . 2010 (2)
[7]  
On the k -NN performance in a challenging scenario of imbalance and overlapping[J] . V. García,R. A. Mollineda,J. S. Sánchez.Pattern Analysis and Applications . 2008 (3)
[8]  
Multi-Label Classification: An Overview[J] . Grigorios Tsoumakas,Ioannis Katakis.International Journal of Data Warehousing and Mining (IJDWM) . 2007 (3)
[9]   Learning multi-label scene classification [J].
Boutell, MR ;
Luo, JB ;
Shen, XP ;
Brown, CM .
PATTERN RECOGNITION, 2004, 37 (09) :1757-1771
[10]  
Class imbalances versus small disjuncts[J] . Taeho Jo,Nathalie Japkowicz.ACM SIGKDD Explorations Newsletter . 2004 (1)