学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
海量短语信息文本聚类技术研究
被引:12
作者
:
王永恒
论文数:
0
引用数:
0
h-index:
0
机构:
国防科技大学计算机学院网络研究所
王永恒
论文数:
引用数:
h-index:
机构:
贾焰
论文数:
引用数:
h-index:
机构:
杨树强
机构
:
[1]
国防科技大学计算机学院网络研究所
来源
:
计算机工程
|
2007年
/ 14期
关键词
:
文本挖掘;
海量;
短语;
并行;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
TP18 [人工智能理论];
学科分类号
:
081203 ;
0835 ;
081104 ;
0812 ;
1405 ;
摘要
:
信息技术的发展造成了大量的文本数据累积,其中很大一部分是短文本数据。文本聚类技术对于从海量短文中自动获取知识具有重要意义。现有的一般文本挖掘方法很难处理TB级的海量数据。由于短文本中的关键词出现次数少,文本挖掘的精度很难保证。该文提出了一种基于频繁词集并结合语义信息的并行聚类算法来解决海量短语信息的聚类问题。实验表明,该方法在处理海量短语信息时具有很好的性能和准确度。
引用
收藏
页码:38 / 40
页数:3
相关论文
未找到相关数据
未找到相关数据