基于改进C-value方法的中文术语抽取

被引:21
作者
胡阿沛
张静
刘俊丽
机构
[1] 中国科学技术信息研究所
关键词
术语抽取; 串频统计; 语言规则; 术语度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出一种改进C-value的术语抽取方法,即IC-value方法。利用停用词对文本进行预处理后,采用一种基于串频统计的抽取算法提取候选术语;对候选术语进行语言规则过滤;从逆文档频率、破碎子串和术语长度三个方面改进C-value方法得到IC-value方法,并用来计算候选术语的术语度。以1 000篇乙型肝炎相关论文摘要进行实证研究,结果证明IC-value方法在准确率和召回率方面都要优于C-value、TF-IDF和V-value,有较强的长术语发现能力,且识别破碎子串的效果十分明显。
引用
收藏
页码:24 / 29
页数:6
相关论文
共 12 条
[1]   Term identification in the biomedical literature [J].
Krauthammer, M ;
Nenadic, G .
JOURNAL OF BIOMEDICAL INFORMATICS, 2004, 37 (06) :512-526
[2]   Automatic recognition of multi-word terms: The C-value/NC-value method [J].
Frantzi K. ;
Ananiadou S. ;
Mima H. .
International Journal on Digital Libraries, 2000, 3 (2) :115-130
[3]  
现代术语学引论.[M].冯志伟著;.语文出版社.1997,
[4]   上下文分析与统计特征相结合的英文术语抽取研究 [J].
许德山 ;
张智雄 ;
王峰 ;
邢美凤 .
现代图书情报技术, 2010, (12) :28-33
[5]   基于领域类别信息C-value的多词串自动抽取 [J].
李超 ;
王会珍 ;
朱慕华 ;
张俐 ;
朱靖波 .
中文信息学报, 2010, (01) :94-98
[6]   基于隐马尔科夫模型的中文术语识别研究 [J].
岑咏华 ;
韩哲 ;
季培培 .
现代图书情报技术, 2008, (12) :54-58
[7]   服务于词典编纂的特定领域专业术语自动抽取 [J].
安纪霞 ;
李锡祚 ;
宋冰 ;
曾伟 .
计算机与数字工程, 2007, (11) :53-56+5
[8]   基于互信息的中文术语抽取系统 [J].
张锋 ;
许云 ;
侯艳 ;
樊孝忠 .
计算机应用研究, 2005, (05) :72-73+77
[9]   信息技术领域术语提取的初步研究 [J].
王强军 ;
李芸 ;
张普 .
术语标准化与信息技术, 2003, (01) :32-33+37
[10]  
基于多策略融合的中文术语抽取方法.[J].周浪;史树敏;冯冲;黄河燕;.情报学报.2010, 03