基于统计,机器翻译又当如何

随着现代科学技术的发展,人工智能技术逐渐进入大众的生活,智能化设备确实带给人类生活的便利,现阶段的人工智能都是绝佳的模仿者,而不是主动的思考着者,不管是AlphaGo还是AlphaStar,打败人类棋手是因为其背后庞大的数据库在支持。

探索AI运转的逻辑,实际上其与机器翻译较为相似。毕竟早在计算机出现之前,苏联科学家就已经提出相关的基础构想,并进行相关的研究实验,在1933年,前苏联科学家Peter Troyanskii就像苏联科学院提出一种能将一种语言翻译成另外一种语言的机器,并提交一篇名为《双语翻译时用于选择和打印文字的机器》的论文,但此项发明甚至算不上严格意义的机器翻译,其中包括4种语言的卡片、一部打字机和一部胶卷照相机。

操作人员从文本中拿出第一个单词,找到相应的卡片,之后拍张照片,并在打字机上打出词的词态,例如名词、复数等等。然后利用胶带和照相机的胶卷制作出一帧帧的单词与形态特征的组合,但这项发明在当时被认作是“无用”之物,直到后来以IBM为首的企业积极参与机器翻译研究。然而翻译看似简单,是将一种语言向另外一种语言的转换,在绝大多数的语言系统中,也都可以找到相应的词汇。

但事与愿违,机器翻译发展至今仍旧存在不少的问题,例如机器翻译初期基于规则进行,但在不同的情境下,同一个词语也会表达完全不同的意思。此外在人类实际使用语言的过程中,大量俚语和用词习惯会毫无规律的出现,按照规则的方式进行翻译几乎没可能,无数的语言学家和科学家探索几十载,机器翻译离流畅的翻译依旧有很长的一段路要走。

在规则翻译之外,早在1949年,瓦伦·韦弗基于香农的信息论提出统计机器翻译的理论,但是最早提出可行的统计机器翻译模型的是IBM研究院的人员,1990年初,IBM就首次展示一个对规则和语言学一无所知的机器翻译系统,其试图对两种语言之间的相似文本分析并试图理解其中的模式。例如会将两种语言中的同一句子分为单词,然后进行匹配。

简单来说,在统计翻译的过程中并未使用任何的规则和词典,所有的输出结果离不开“如果人们这样翻译,我也这样翻译”的逻辑。尽管此种方法相对于之前的方法更为有效准确,使用的文本越多得到翻译结果也更好,但统计机器翻译在早期并未受到重视 。

直到2005年,谷歌翻译凭借搜索引擎积累的海量语言数据库,以及分布式计算能力将统计机器翻译推进大众视野。如今绝大数的AI机器翻译工具也是基于统计,但依旧需要大量反复的语料输入,当然机器的深度学习能够进行部分规律的总结,验证新的内容,因此在这样的背景下,AI翻译的质量取决于前期输入的数据。

目前的AI翻译所面临的瓶颈依旧是,语料输入的不足会导致AI预测效果降低,而过多的影响因素也会导致结果的偏差;此外人工智能AI只能学会人类交给他的东西,面对新词汇或数据库中不存在的词汇就会无法翻译,也只是基于“已知”所做出的预测,而不能进行创造。

至于机器取代人类在短时间内并不会实现,毕竟机器翻译过程中依旧存在问题,但对于机器翻译取代的部分简单冗余的市场而言,人类译员依旧需要时刻保持警惕,不断提升自身的专业技能和知识。

喜欢润界本地化,请多多支持!

发表评论
留言与评论(共有 0 条评论)
   
验证码:

相关文章

推荐文章

'); })();