基于字角色标注的中文书目关键词标引研究

被引:7
作者
邓三鸿
王昊
秦嘉杭
苏新宁
机构
[1] 南京大学信息管理系
关键词
中文书目; 关键词标引; 字角色; 序列标注; 自动标引;
D O I
10.13530/j.cnki.jlis.2012.02.007
中图分类号
G353.1 [情报资料的分析和研究];
学科分类号
1205 ;
摘要
中文书目机器自动标引是数字图书馆建设中亟待解决的关键问题之一。本文试图将条件随机场(CRFs)序列标注机器学习算法引入到关键词抽取中,建立面向图书内容、基于字角色标注的中文书目关键词标引模型。将图书内容转化为字序列,进而提出构建关键词角色空间模型和综合利用字序列上下文特征的设计思路。通过实验,从题名和内容提要中分别自动抽取关键词,论证该模型的合理性和实用性。
引用
收藏
页码:38 / 49
页数:12
相关论文
共 15 条
[1]   基于机器学习的中文书目自动分类研究 [J].
王昊 ;
严明 ;
苏新宁 .
中国图书馆学报, 2010, 36 (06) :28-39
[2]   基于联合权重的多文档关键词抽取技术 [J].
杨洁 ;
季铎 ;
蔡东风 ;
林晓庆 ;
白宇 .
中文信息学报, 2008, 22 (06) :75-79
[3]   基于条件随机场的自动标引模型研究 [J].
章成志 ;
苏新宁 .
中国图书馆学报, 2008, (05) :89-94+99
[4]   一种基于TFIDF方法的中文关键词抽取算法 [J].
徐文海 ;
温有奎 .
情报理论与实践, 2008, (02) :298-302
[5]   HMM和CRFs在信息抽取应用中的比较研究 [J].
王昊 ;
邓三鸿 .
现代图书情报技术, 2007, (12) :57-63
[6]   基于相邻词的中文关键词自动抽取 [J].
王灿辉 ;
张敏 ;
马少平 ;
黄宇 .
广西师范大学学报(自然科学版), 2007, (02) :161-164
[7]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[8]  
中文名实体识别:基于词触发对的条件随机域方法[J]. 赵健,王晓龙,关毅,徐志明.高技术通讯. 2006 (08)
[9]  
海量数据集上基于特征组合的关键词自动抽取[J]. 张庆国,薛德军,张振海,张君玉.情报学报. 2006 (05)
[10]  
中文文本关键词自动抽取方法研究[J]. 张雪英,Jürgen Krause.情报学报. 2008 (04)