一种基于容错粗糙集的Web文档分类方法

被引:3
作者
胡和平
易高翔
机构
[1] 华中科技大学计算机科学与技术学院
关键词
Web分类; 粗糙集; 容错粗糙集; 容错类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
为了充分利用Web这一宝贵资源,需要一种高效准确的Web分类方法.应用机器学习技术,如K-邻近法、贝叶斯概率模型等已经实现了Web文档半自动和自动分类.但是,大多数Web分类方法共同的特点是把类作为互斥的概念,很少考虑类与类之间存在一定的交叉概念.其实,一个Web文档有时可属于几个类别,说明Web文档的类之间存在不确定的关系.粗糙集理论-1982年Pawlak提出的,它在不确定关系表示有显著优点,由近似关系产生的分类方法分类精度更高.在Web文档常用向量模型基础上,利用特征词协同出现的价值,本文采用一种广义粗糙集----容错关系(tolerancerelation)来表示文档,丰富特征词对Web文档的描述,实验结果表明它更适合表示Web文档,有利于提高Web分类的准确性.
引用
收藏
页码:305 / 307
页数:3
相关论文
共 2 条
[1]   一种基于粗糙集的网页分类方法 [J].
李滔 ;
王俊普 ;
徐杨 .
小型微型计算机系统, 2003, (03) :520-522
[2]   A Study of Approaches to Hypertext Categorization [J].
Yiming Yang ;
Seán Slattery ;
Rayid Ghani .
Journal of Intelligent Information Systems, 2002, 18 :219-241