网络热点事件发现系统的设计

被引:31
作者
刘星星 [1 ,2 ]
何婷婷 [1 ,2 ]
龚海军 [1 ,2 ]
陈龙 [1 ,2 ]
机构
[1] 华中师范大学计算机科学系
[2] 国家语言资源监测与研究中心网络媒体语言分中心
关键词
计算机应用; 中文信息处理; 事件发现; 凝聚聚类; Single-pass聚类; 热度计算;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
该文设计了一个热点事件发现系统。该系统面向互联网新闻报道流,能自动发现任意一段时间内网络上的热点事件,并给出描述事件发展过程的曲线图。针对网络新闻语料具有数据规模大和时间特征明显两个特性,系统将语料按时间(天)分组,对每天的语料采用凝聚聚类得到微类,选取某段时间内的所有微类,再做Single-pass聚类得到事件列表,利用事件热度计算公式,把候选事件按热度进行排序。采用该系统对2007年新闻语料进行实验,结果表明该系统能取得较好的效果。
引用
收藏
页码:80 / 85
页数:6
相关论文
共 7 条
[1]   话题检测与跟踪的评测及研究综述 [J].
洪宇 ;
张宇 ;
刘挺 ;
李生 .
中文信息学报, 2007, (06) :71-87
[2]   基于词语属性的计算机辅助获取流行词语研究 [J].
何婷婷 ;
朱薏 ;
张勇 ;
任函 .
中文信息学报, 2006, (06) :38-45
[3]   基于多策略优化的分治多层聚类算法的话题发现研究 [J].
骆卫华 ;
于满泉 ;
许洪波 ;
王斌 ;
程学旗 .
中文信息学报, 2006, (01) :29-36
[4]  
基于HowNet的话题跟踪及倾向性分类研究[J]. 金珠,林鸿飞,赵晶.情报学报. 2005 (05)
[5]  
面向互联网的话题发现技术研究[A]. 邱立坤,陶然,龙志祎,程葳.全国网络与信息安全技术研讨会论文集(下册)[C]. 2007
[6]  
中文计算技术与语言问题研究[M]. 电子工业出版社 , 萧国政, 2007
[7]   Design and Implementation of On-Line Hot Topic Discovery Model [J].
YE Huimin CHENG Wei DAI Guanzhong School of Automatic Control Northwestern Polytechnical University Xian Shaanxi China Institute of Artificial Intelligence Beijing City University Beijing China .
Wuhan University Journal of Natural Sciences, 2006, (01) :21-26