结合时序和语义的中文微博话题检测与跟踪方法

被引:3
作者
陈铁明
王小号
庞卫巍
江颉
机构
[1] 浙江工业大学计算机科学与技术学院
基金
浙江省自然科学基金;
关键词
微博文本; 频繁词集; 特征选择; 聚类; 话题检测; 时序; 语义;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
微博文本具有短小快捷、主题多变等特点,社交话题检测与跟踪研究面临新的挑战。结合微博的话题时序性和短文本语义相似度等特点,提出了基于微博聚类的话题检测与跟踪系统方法。首先,通过定义微博文本的时序频繁词集,给出面向热点话题的特征词选择方法;然后,根据时序频繁特征词集,利用最大频繁项集获得微博初始聚类;针对初始簇间存在文本重叠情况,提出基于短文本扩展语义隶属度的簇间重叠消减算法,获得完全分离的初始簇;最后,根据簇语义相似度矩阵,给出凝聚式话题聚类方法。通过新浪微博完成实验测试,表明所提方法可用于中文微博热点话题检测与跟踪。
引用
收藏
页码:21 / 29
页数:9
相关论文
共 11 条
[1]   基于隐主题分析和文本聚类的微博客中新闻话题的发现 [J].
路荣 ;
项亮 ;
刘明荣 ;
杨青 .
模式识别与人工智能, 2012, 25 (03) :382-387
[2]   基于增量型聚类的自动话题检测研究 [J].
张小明 ;
李舟军 ;
巢文涵 .
软件学报, 2012, 23 (06) :1578-1587
[3]   话题跟踪中静态和动态话题模型的核捕捉衰减 [J].
洪宇 ;
仓玉 ;
姚建民 ;
周国栋 ;
朱巧明 .
软件学报, 2012, 23 (05) :1100-1119
[4]   基于关键词元的话题内事件检测 [J].
张阔 ;
李涓子 ;
吴刚 ;
王克宏 .
计算机研究与发展, 2009, 46 (02) :245-252
[5]   基于多策略优化的分治多层聚类算法的话题发现研究 [J].
骆卫华 ;
于满泉 ;
许洪波 ;
王斌 ;
程学旗 .
中文信息学报, 2006, (01) :29-36
[6]   基于知网的语义相关度计算 [J].
许云 ;
樊孝忠 ;
张锋 .
北京理工大学学报, 2005, (05) :411-414
[7]   一种基于动态进化模型的事件探测和追踪算法 [J].
贾自艳 ;
何清 ;
张海俊 ;
李嘉佑 ;
史忠植 .
计算机研究与发展, 2004, (07) :1273-1280
[8]  
海量短语信息挖掘技术的研究与实现[D]. 王永恒.国防科学技术大学. 2006
[9]  
Feature generation for textual information retrieval using world knowledge[J] . Evgeniy Gabrilovich. ACM SIGIR Forum . 2007 (2)
[10]  
Text document clustering based on frequent word meaning sequences[J] . Yanjun Li,Soon M. Chung,John D. Holt. Data & Knowledge Engineering . 2007 (1)