基于卷积神经网络的文献自动分类研究

被引:33
作者
郭利敏
机构
[1] 上海图书馆
关键词
人工智能; 智能图书馆; 深度学习; 卷积神经网络; Tensor Flow; 自动分类;
D O I
暂无
中图分类号
G250.7 [图书馆自动化、网络化]; G254 [文献标引与编目];
学科分类号
1205 ; 120501 ;
摘要
人工智能技术的蓬勃发展,驱动着文献自动分类由基于规则的分类向基于机器学习的方向发展。文章在对深度学习概述的基础上,将卷积神经网络引入到了文献自动分类,构建了基于题名、关键词的多层次卷积神经网络模型,使之能够根据文献的题名和关键词自动给出中图分类号。通过在Tensor Flow平台上的深度学习模型,利用《全国报刊索引》约170万条记录进行模型训练,并对7000多篇待加工的文献做中图法分类预测,其在生产情况下一级分类准确率为75.39%,四级准确率为57.61%。当置信度为0.9时,一级正确率为43.98%,错误率为1.96%,四级正确率为25.66%,四级错误率为5.11%。证明该模型有着较低的错误率,可为《全国报刊索引》分类流程的半自动化提供帮助,解决存在的编目人员紧缺、加工质量和效率下降等问题。
引用
收藏
页码:96 / 103
页数:8
相关论文
共 9 条
[1]   基于KNN和SVM的中文文本自动分类研究 [J].
张野 ;
杨建林 .
情报科学, 2011, 29 (09) :1313-1317+1377
[2]   基于机器学习的中文书目自动分类研究 [J].
王昊 ;
严明 ;
苏新宁 .
中国图书馆学报, 2010, 36 (06) :28-39
[3]   基于机器学习的科技文摘关键词自动提取方法 [J].
刘佳宾 ;
陈超 ;
邵正荣 ;
吉翔华 .
计算机工程与应用 , 2007, (14) :170-172
[4]  
Discrete-time delayed standard neural network model and its application[J]. LIU Meiqin School of Electrical Engineering, Zhejiang University, Hangzhou 310027, China.Science in China(Series F:Information Sciences). 2006(02)
[5]   自动分类研究现状与展望 [J].
成颖 ;
史九林 .
情报学报, 1999, (01) :20-26
[6]  
基于机器学习的中文期刊论文自动分类研究[D]. 叶鹏.南京大学. 2013
[7]  
Text Classification Using Support Vector Machine with Mixture of Kernel[J] . Liwei Wei,Bo Wei,Bin Wang.Journal of Software Engineering and Applications . 2012 (12)
[8]   A fast learning algorithm for deep belief nets [J].
Hinton, Geoffrey E. ;
Osindero, Simon ;
Teh, Yee-Whye .
NEURAL COMPUTATION, 2006, 18 (07) :1527-1554
[9]  
On Relevance, Probabilistic Indexing and Information Retrieval[J] . M. E. Maron,J. L. Kuhns.Journal of the ACM (JACM) . 1960 (3)