大数据背景下的谷歌翻译——现状与挑战

被引:22
作者
斯介生 [1 ]
宋大我 [2 ]
李扬 [3 ,4 ]
机构
[1] 杭州电子科技大学经济学院
[2] 中国人民大学
[3] 中国人民大学统计学院
[4] 中国人民大学统计咨询研究中心
基金
中央高校基本科研业务费专项资金资助;
关键词
谷歌翻译; 统计机器翻译; 最大熵; 最小误差率损失;
D O I
10.19343/j.cnki.11-1302/c.2016.05.013
中图分类号
F49 [信息产业经济];
学科分类号
1201 ;
摘要
在大数据时代,如何通过数据分析挖掘事物的内在规律是人们需要思考的问题。谷歌翻译基于"最好的表达为出现频率最高的表达"这样的认识,将翻译问题转化为统计问题。本文以谷歌翻译为案例,详细分析了案例背景、实现过程,并给出案例反思。谷歌翻译的成功之处在于,将实际问题巧妙地转化为统计问题,并利用其强大的计算能力解决问题。其瓶颈在于,当前的方法只利用了大数据的少量信息,不能充分刻画大数据的全部信息。谷歌翻译对问题的转化和处理方式是大数据应用的典范,对利用大数据解决实际问题有重要的借鉴意义。
引用
收藏
页码:109 / 112
页数:4
相关论文
共 5 条
[1]   大数据与统计新思维 [J].
李金昌 .
统计研究, 2014, 31 (01) :10-17
[2]  
数学之美[M]. 人民邮电出版社 , 吴军, 2014
[3]  
统计自然语言处理[M]. 清华大学出版社 , 宗成庆, 2013
[4]   Human-level concept learning through probabilistic program induction [J].
Lake, Brenden M. ;
Salakhutdinov, Ruslan ;
Tenenbaum, Joshua B. .
SCIENCE, 2015, 350 (6266) :1332-1338
[5]   The alignment template approach to statistical machine translation [J].
Och, FJ ;
Ney, H .
COMPUTATIONAL LINGUISTICS, 2004, 30 (04) :417-449