基于双语语料的单个源语词汇和目标语多词单元的对齐

被引:5
作者
陈博兴
杜利民
机构
[1] 中国科学院声学研究所语音交互技术研究中心,中国科学院声学研究所语音交互技术研究中心北京,北京
关键词
人工智能; 机器翻译; 双语对齐; 多词单元; 翻译词典; 平均关联值; 关联值归一化差值;
D O I
暂无
中图分类号
TP391.2 [翻译机];
学科分类号
081203 ; 0835 ;
摘要
多词单元包括固定搭配、多词习语和多词术语等。本文提供了一个基于双语口语语料库的自动对齐单个源语词汇和目标语多词单元的算法 ,算法一方面通过计算对应于同一个源语词汇 ,多个目标语词汇之间的互信息和t值的归一化差值的大小来衡量目标语多个词语之间的关联程度以提取多词单元 ,另一方面通过计算互信息和t值的平均值作为多词单元和单个源语词汇之间互为相互翻译的衡量程度 ,用局部最优、首尾禁用词过滤以及长词优先等策略很好地解决了这个问题。另外 ,对短语翻译词典的分级 ,有效地减少了高级别词典中非正确翻译项的数目 ,使得翻译词典具有更好的实用性。
引用
收藏
页码:13 / 19
页数:7
相关论文
共 2 条
[1]  
现代汉语自动分析.[M].陈小荷著;.北京语言文化大学出版社.2000,
[2]  
现代汉语语法信息词典详解.[M].俞士汶等著;.清华大学出版社.1998,