流量内容词语相关度的网络热点话题提取

被引:27
作者
周亚东
孙钦东
管晓宏
李卫
陶敬
机构
[1] 西安交通大学智能网络与网络安全教育部重点实验室
关键词
网络热点话题; 流量内容; 网络舆情分析;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对网络舆情分析的需求,给出了网络热点话题定义及其形式化描述,分析了流量内容中热点词语与热点话题的关系,提出了流量内容中热点词语的相关度计算算法.在此基础上,采用基于高密度连接区域的密度聚类方法得到热点词语簇,结合热点词语簇相关的网页标题及网站地址信息,得出网络热点话题的属性描述.实验结果表明,该算法能够有效获取当前网络中的热点话题,话题提取有效率达到16.7%,为网络热点话题传播特性研究提供了基础.与Web挖掘、话题监测与跟踪方法相比,所提算法通过选取合适的数据源,能更大程度地还原网络用户行为,从而得到了更为准确的网络信息传播状况.
引用
收藏
页码:1142 / 1145+1150 +1150
页数:5
相关论文
共 4 条
[1]   话题识别与跟踪中的层次化话题识别技术研究 [J].
于满泉 ;
骆卫华 ;
许洪波 ;
白硕 .
计算机研究与发展, 2006, (03) :489-495
[2]   Web数据挖掘技术及实现 [J].
王泽彬 ;
金飞 ;
李夏 ;
王冠 .
哈尔滨工业大学学报, 2005, (10)
[3]   话题识别与跟踪研究 [J].
李保利 ;
俞士汶 ;
不详 .
计算机工程与应用 , 2003, (17) :7-10+109
[4]  
Observing TCP dynamics in real networks[J] . Jeffrey C. Mogul.ACM SIGCOMM Computer Communication Review . 1992 (4)