基于机器学习的文本分类技术研究进展

被引:381
作者
苏金树
张博锋
徐昕
机构
[1] 国防科学技术大学计算机学院
[2] 国防科学技术大学计算机学院 湖南长沙
[3] 湖南长沙国防科学技术大学机电工程与自动化学院
[4] 湖南长沙)
关键词
自动文本分类; 机器学习; 降维; 核方法; 未标注集; 偏斜数据集; 分级分类; 大规模文本分类; Web页分类;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.
引用
收藏
页码:1848 / 1859
页数:12
相关论文
共 11 条
[1]   一种实用高效的文本分类算法 [J].
王建会 ;
王洪伟 ;
申展 ;
胡运发 .
计算机研究与发展, 2005, (01) :85-93
[2]   使用最大熵模型进行中文文本分类 [J].
李荣陆 ;
王建会 ;
陈晓云 ;
陶晓鹏 ;
胡运发 .
计算机研究与发展, 2005, (01) :94-101
[3]   基于支持向量机的渐进直推式分类学习算法 [J].
陈毅松 ;
汪国平 ;
董士海 .
软件学报, 2003, (03) :451-460
[4]   The combination of text classifiers using reliability indicators [J].
Bennett, PN ;
Dumais, ST ;
Horvitz, E .
INFORMATION RETRIEVAL, 2005, 8 (01) :67-100
[5]  
Maximum Entropy Models with Inequality Constraints: A Case Study on Text Categorization[J] . Jun’ichi Kazama,Jun’ichi Tsujii.Machine Learning . 2005 (1)
[6]   Fast and accurate text classification via multiple linear discriminant projections [J].
Chakrabarti, S ;
Roy, S ;
Soundalgekar, MV .
VLDB JOURNAL, 2003, 12 (02) :170-185
[7]   A comparison of word- and sense-based text categorization using several classification algorithms [J].
Kehagias, A ;
Petridis, V ;
Kaburlasos, VG ;
Fragkou, P .
JOURNAL OF INTELLIGENT INFORMATION SYSTEMS, 2003, 21 (03) :227-247
[8]   A fuzzy approach to classification of text documents [J].
Liu, WY ;
Song, N .
JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY, 2003, 18 (05) :640-647
[9]   A Study of Approaches to Hypertext Categorization [J].
Yiming Yang ;
Seán Slattery ;
Rayid Ghani .
Journal of Intelligent Information Systems, 2002, 18 :219-241
[10]   Hierarchical text categorization using neural networks [J].
Ruiz, ME ;
Srinivasan, P .
INFORMATION RETRIEVAL, 2002, 5 (01) :87-118