面向叙词表更新的新术语分布特征研究

被引:3
作者
雷晓
常春
刘伟
机构
[1] 中国科学技术信息研究所
关键词
叙词表更新; 新术语; 时间分布; 文档词频分布;
D O I
10.13266/j.issn.0252-3116.2019.20.014
中图分类号
G254.24 [叙词法与叙词表];
学科分类号
1205 ; 120501 ;
摘要
[目的/意义]为增强叙词表实用性,需要不断地将领域中出现的新术语更新到叙词表中,更新维护过程中,从时间及词频等角度对新术语分布特征进行探索研究,可以为新术语发现方法提供参考。[方法/过程]基于新术语相关特征,结合对应文档频率在时间点和时间段上的发展分布,通过相关统计分析,研究术语在不同成长时期的分布特征,尤其界定术语在开始期与成长期的分布差异。[结果/结论]实证分析表明新术语一般处于术语发展的成长期,当候选新术语保持正向增长趋势超过一定年限,可以认为该术语同时具有新颖性、时间持续性及术语性特征。基于该分布特征进行领域新术语的识别,结合词表编制专家的判断,该方法在新术语收录判断中具有较高的准确率,且能有效识别实际应用中占比较多的低频词。
引用
收藏
页码:121 / 128
页数:8
相关论文
共 20 条
[1]   基于生物种群增长规律的概念词频变化特征研究 [J].
常春 ;
杨婧 .
情报科学, 2018, 36 (10) :128-132
[2]   基于上下文词频词汇量指标的新词发现方法 [J].
邢恩军 ;
赵富强 .
计算机应用与软件, 2016, 33 (06) :64-67
[3]   基于混合策略的公众健康领域新词识别方法研究 [J].
侯丽 ;
李姣 ;
侯震 ;
陈松景 .
图书情报工作, 2015, (23) :115-123
[4]   基于条件随机场的专利术语抽取 [J].
刘辉 ;
刘耀 .
数字图书馆论坛, 2014, (12) :46-49
[5]   主题词表的社会应用研究 [J].
周晓英 ;
曾建勋 .
数字图书馆论坛, 2014, (10) :2-6
[6]   基于有效词频的改进C-value自动术语抽取方法 [J].
熊李艳 ;
谭龙 ;
钟茂生 .
现代图书情报技术, 2013, (09) :54-59
[7]   基于改进C-value方法的中文术语抽取 [J].
胡阿沛 ;
张静 ;
刘俊丽 .
现代图书情报技术, 2013, (02) :24-29
[8]   博客语料的新词发现方法 [J].
黄轩 ;
李熔烽 .
现代电子技术, 2013, 36 (02) :144-146+149
[9]   新词语的生命力 [J].
刘长征 .
北华大学学报(社会科学版), 2012, 13 (05) :4-8
[10]   C-value值和unithood指标结合的中文科技术语抽取 [J].
韩红旗 ;
安小米 .
图书情报工作, 2012, 56 (19) :85-89