基于LDA的科技创新主题语义识别研究

被引:19
作者
祝娜
王效岳
杨京
白如江
机构
[1] 山东理工大学科技信息研究所
关键词
语义角色标注; 科技创新主题; LDA模型; 3D打印;
D O I
10.13266/j.issn.0252-3116.2015.14.018
中图分类号
TP391.1 [文字信息处理]; G254 [文献标引与编目];
学科分类号
081203 ; 0835 ; 1205 ; 120501 ;
摘要
[目的 /意义]由于传统科技创新主题概率识别方法忽略文本内容语义理解,为了更加准确地识别出主题,科技创新主题语义识别势在必行。[方法 /过程]提出一种基于LDA的科技创新主题语义识别方法,利用语义角色标注技术对科技文献中的科技创新内容进行语义标引,构建LDA主题语义识别模型,根据表征科技创新内容的关键词语义角色对应的上位词的概率识别出科技创新主题。[结果 /结论]通过以3D打印领域数据为对象进行实验,证明该方法能够更加准确地识别出科技创新主题,形成科技创新主题-主题词-科技文献的混合分布聚类集群,减少研究背景等无关数据干扰,避免语义含义相同的科技创新主题词重复统计问题。
引用
收藏
页码:126 / 134
页数:9
相关论文
共 18 条
[1]  
基于条件随机场的中文图书主题自动标引研究.[D].邹杰利.南京大学.2013, 10
[2]  
LIBSVM.[J].Chih-Chung Chang;Chih-Jen Lin.ACM Transactions on Intelligent Systems and Technology (TIST).2011, 3
[3]  
Discovering Emerging Topics from WWW.[J].Naohiro Matsumura;Yutaka Matsuo;Yukio Ohsawa;Mitsuru Ishizuka.Journal of Contingencies and Crisis Management.2002, 2
[4]   Statistical models for text segmentation [J].
Beeferman, D ;
Berger, A ;
Lafferty, J .
MACHINE LEARNING, 1999, 34 (1-3) :177-210
[5]  
WordNet.[J].George A. Miller.Communications of the ACM.1995, 11
[7]   基于语义角色标注的专利主题提取研究 [J].
孟令恩 ;
李颖 ;
何彦青 ;
屈鹏 ;
王惠临 .
图书情报工作, 2014, (19) :19-24
[8]   基于支持向量机和核心特征词的科技文献自动标引研究 [J].
白如江 ;
王晓笛 ;
王效岳 .
情报理论与实践, 2014, 37 (07) :129-134
[9]   基于动态LDA主题模型的内容主题挖掘与演化 [J].
胡吉明 ;
陈果 .
图书情报工作, 2014, 58 (02) :138-142
[10]   3D打印技术及其未来发展趋势 [J].
吴平 .
印刷质量与标准化, 2014, (01) :8-10