计算文本相似度阈值的方法

被引:17
作者
刁力力
王丽坤
陆玉昌
石纯一
机构
[1] 清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华大学计算机科学与技术系智能技术与系统国家重点实验室北京,北京,北京,北京
关键词
数据挖掘; 文本挖掘; 文本分类; Boosting机器学习方法; 相似度;
D O I
10.16511/j.cnki.qhdxxb.2003.01.029
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
基于VSM(向量空间模型)的相似度分类器的相似度阈值通常由经验确定导致分类精度不高。该文提出一种基于Boosting机制在不同文档集上自动计算相似度阈值的方法。它利用Boosting迭代生成多个基于相似度划分的子分类器,通过加权把决定这些子分类器的相似度阈值组合起来,得到对理想相似度阈值的一种逼近。实验表明:这样得到的相似度分类器的平均精度比传统方法高15%左右,甚至可以与一些复杂方法相比。它在处理网络实时文本信息处理问题(分类、过滤和检索)中的效率是这些复杂方法的3倍以上,且问题规模越大、越复杂,其优势越大。
引用
收藏
页码:108 / 111
页数:4
相关论文
共 1 条
[1]   中文文档自动分类系统的设计与实现 [J].
邹涛 ;
王继成 ;
黄源 ;
张福炎 .
中文信息学报, 1999, (03) :27-33