基于条件随机场的自动标引模型研究

被引:22
作者
章成志 [1 ]
苏新宁 [2 ]
机构
[1] 南京理工大学信息管理系
[2] 南京大学信息管理系
关键词
抽词标引; 条件随机场; 自动标引;
D O I
10.13530/j.cnki.jlis.2008.05.015
中图分类号
G354 [情报检索];
学科分类号
1205 ;
摘要
条件随机场(Conditional Random Fields,CRF)模型是一种概率图模型。为了有效利用标引对象的特征,并考虑到抽词标引可以转换为序列标注问题,本文提出基于条件随机场的自动抽词标引模型。实验结果表明,该模型在改善抽词标引的性能方面,要优于支持向量机、多元线性回归模型等其他机器学习方法,是到目前为止解决序列标注问题的最好方法。但是,该模型本身还不能解决由于样本中存在同义词和相近词带来的问题,需要进一步对训练集和标引过程中存在的词汇语义情况进行考虑,提高标引的质量。
引用
收藏
页码:89 / 94+99 +99
页数:7
相关论文
共 12 条
[1]   一种基于词汇链的关键词抽取方法 [J].
索红光 ;
刘玉树 ;
曹淑英 .
中文信息学报, 2006, (06) :25-30
[2]   基于层叠条件随机场模型的中文机构名自动识别 [J].
周俊生 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
电子学报, 2006, (05) :804-809
[3]   关键词自动标引的最大熵模型应用研究 [J].
李素建 ;
王厚峰 ;
俞士汶 ;
辛乘胜 .
计算机学报, 2004, (09) :1192-1197
[4]   一种基于字同现频率的汉语文本主题抽取方法 [J].
马颖华 ;
王永成 ;
苏贵洋 ;
张宇萌 .
计算机研究与发展, 2003, (06) :874-878
[5]   信息技术领域术语提取的初步研究 [J].
王强军 ;
李芸 ;
张普 .
术语标准化与信息技术, 2003, (01) :32-33+37
[6]   中文全文标引的主题词标引和主题概念标引方法 [J].
韩客松 ;
王永成 .
情报学报, 2001, (02) :212-216
[7]  
Web概念挖掘中标引源加权方案初探[J]. 侯汉清,章成志,郑红.情报学报. 2005 (01)
[8]  
海量数据集上基于特征组合的关键词自动抽取[J]. 张庆国,薛德军,张振海,张君玉.情报学报. 2006 (05)
[9]  
主题法导论[M]. 北京大学出版社 , 侯汉清,马张华主编, 1991
[10]   Using lexical chains for keyword extraction [J].
Ercan, Gonenc ;
Cicekli, Ilyas .
INFORMATION PROCESSING & MANAGEMENT, 2007, 43 (06) :1705-1714