共 1 条
计算文本相似度阈值的方法
被引:17
作者:
刁力力
王丽坤
陆玉昌
石纯一
机构:
[1] 清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华大学计算机科学与技术系智能技术与系统国家重点实验室,清华大学计算机科学与技术系智能技术与系统国家重点实验室北京,北京,北京,北京
来源:
关键词:
数据挖掘;
文本挖掘;
文本分类;
Boosting机器学习方法;
相似度;
D O I:
10.16511/j.cnki.qhdxxb.2003.01.029
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
081203 ;
0835 ;
摘要:
基于VSM(向量空间模型)的相似度分类器的相似度阈值通常由经验确定导致分类精度不高。该文提出一种基于Boosting机制在不同文档集上自动计算相似度阈值的方法。它利用Boosting迭代生成多个基于相似度划分的子分类器,通过加权把决定这些子分类器的相似度阈值组合起来,得到对理想相似度阈值的一种逼近。实验表明:这样得到的相似度分类器的平均精度比传统方法高15%左右,甚至可以与一些复杂方法相比。它在处理网络实时文本信息处理问题(分类、过滤和检索)中的效率是这些复杂方法的3倍以上,且问题规模越大、越复杂,其优势越大。
引用
收藏
页码:108 / 111
页数:4
相关论文