海量短语信息文本聚类技术研究

被引:12
作者
王永恒
贾焰
杨树强
机构
[1] 国防科技大学计算机学院网络研究所
关键词
文本挖掘; 海量; 短语; 并行;
D O I
暂无
中图分类号
TP391.1 [文字信息处理]; TP18 [人工智能理论];
学科分类号
081203 ; 0835 ; 081104 ; 0812 ; 1405 ;
摘要
信息技术的发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本聚类技术对于从海量短文中自动获取知识具有重要意义。现有的一般文本挖掘方法很难处理TB级的海量数据。由于短文本中的关键词出现次数少,文本挖掘的精度很难保证。该文提出了一种基于频繁词集并结合语义信息的并行聚类算法来解决海量短语信息的聚类问题。实验表明,该方法在处理海量短语信息时具有很好的性能和准确度。
引用
收藏
页码:38 / 40
页数:3
相关论文
empty
未找到相关数据