现代汉语计算语言模型中语言单位的频度—频级关系

被引:15
作者
关毅
王晓龙
张凯
机构
[1] 哈尔滨工业大学计算机系自然语言理解研究室
关键词
Zipf定律,字频,词频,二元对频度;
D O I
暂无
中图分类号
TP391.2 [翻译机];
学科分类号
081203 ; 0835 ;
摘要
Zipf定律是一个反映英文单词词频分布情况的普适性统计规律。我们通过实验发现,在现代汉语的字、词、二元对等等语言单位上,其频度与频级的关系也近似地遵循Zipf定律,说明了Zipf定律对于汉语的不同层次的语言单位也是普遍适用的。本文通过实验证实了Zipf定律所反映的汉语语言单位频度—频级关系,并进而深入讨论了它对于汉语自然语言处理的各项技术,尤其是建立现代汉语基于统计的计算语言模型所具有的重要指导意义
引用
收藏
页码:9 / 16
页数:8
相关论文
empty
未找到相关数据