百度翻译在线翻译中文泰文翻译

对于机器翻译来说,一种语言中可用的文本材料越多,人工智能模型训练的翻译效果就越好。然而,并非所有语言都有丰富的培训材料。因此,如何在少数据的情况下培养出更好的翻译人才,成为机器翻译领域亟待解决的问题之一。

近日,谷歌在其博客上介绍了公司最新的翻译创新技术,提升了谷歌翻译的用户体验。目前,谷歌翻译可以支持108种语言,平均每天翻译1500亿字。

谷歌翻译最早出现在2006年。在过去的13年里,翻译水平有了很大的飞跃。谷歌表示,其翻译突破不是单一技术驱动的,而是低资源语言、高资源语言、整体质量、推理速度等一系列技术组合的突破。2019年5月至2020年5月,根据人工评测和BLEU一种基于翻译系统翻译和人工参考翻译相似度的衡量标准),Google Translation在所有语言中平均提升5分以上,在语料库资源最少的50种语言中平均提升7分以上。

混合模型和数据挖掘器

在这一系列技术突破中,谷歌首先提到了混合模型和数据挖掘器。

混合模型是指由Transformer编码器和递归神经网络RNN)解码器组成的模型。在机器翻译中,编码器通常将单词和短语编码为内部表示,解码器将它们生成所需的语言文本。谷歌研究人员在2017年表示,最早提出翻译质量的提升主要依靠编码器。谷歌团队表示,这可能是因为RNN和Transformer是为处理有序数据序列而设计的,但Transformer不需要按顺序处理序列。换句话说,如果所讨论的数据是自然语言,Transformer在处理结尾之前不需要处理句子的开头。

然而,RNN解码器在推理时间上仍然比变压器中的解码器“快得多”。谷歌翻译团队意识到了这一点,因此在将RNN解码器与Transformer编码器耦合之前,它优化了RNN解码器,以创建一个比以前使用的RNN神经机器翻译模型具有更低延迟、更好质量和更好稳定性的混合模型。

除了新颖的混合模型架构,谷歌还升级了爬虫工具,可以从数百万个样本翻译中收集编译训练数据。升级后,谷歌嵌入了14个大型语言对,而不仅仅是基于字典数据。也就是说,它使用实数向量来表示单词和短语,更注重准确性检索到的数据的相关数据部分)而不是检索实际检索到的相关数据总量)。在输出方面,谷歌表示,这使数据挖掘器提取的句子数量平均增加了29%。

噪声数据和迁移学习

提高谷歌翻译性能的另一个技术突破来自于更好地处理训练数据中的“噪音”。“噪音”是指有噪声的数据,其中包含大量无法正确理解或解释的信息数据,从而破坏语料库资源丰富的语言翻译。因此,谷歌翻译团队部署了一个系统,该系统使用训练好的模型为翻译示例赋值,然后过滤掉“纯”数据。事实上,这些模型最初是基于所有数据进行训练的,然后逐渐基于更小更纯的数据子集。这种方法在人工智能研究领域被称为课程学习。

对于机器翻译,传统上依赖于源语言和目标语言中成对句子的语料库统计。对于资源较少的语言,谷歌在Google Translation中采用了反向翻译机制来加强并行训练数据,即语言中的每一句都与其翻译相匹配。该机制将训练数据和合成的并行数据自动对齐,目标文本为自然语言,源文本由神经翻译模型生成。因此,Google Translate充分利用更丰富的单语数据来训练模型,Google表示这对于提高翻译流畅性特别有帮助。

此外,谷歌翻译团队还构建了一个M4模型。M4模式是团队在2019年提出的。在训练了100多种语言的250亿对句子后,该模型提高了30多种低资源语言的翻译质量。该模型也证明了迁移学习技术可以应用于机器翻译。也就意味着收集法语、德语、西班牙语这些拥有数十亿平行例子的高资源语言,经过训练后可以应用于翻译只有数万个例子的约鲁巴语、信德语、夏威夷语等低资源语言。

机器翻译的未来

谷歌表示,自2010年以来,翻译质量每年都在提高,但机器翻译绝不是翻译问题的“终结者”。谷歌承认,即使是增强的模型也容易出错,包括将一种语言的不同方言混合在一起,产生太多的直译,以及在特定主题、非正式或口语上表现不佳。

谷歌试图以不同的方式解决上述问题。该公司发布了一项计划,通过检查翻译的单词和短语是否正确,招募志愿者来帮助提高低资源语言的翻译绩效。今年2月,谷歌翻译在与新兴的机器学习技术结合后取得了进展。他们提供了只有7500万人使用的五种语言翻译,如基尼亚卢旺达语、奥迪亚语、鞑靼语、土库曼语和维吾尔语。

谷歌并不是唯一一个追求真正通用翻译的公司。2018年8月,脸书发布了一个AI模型,该模型结合了逐字翻译、语言模型和反向翻译,在语言匹配方面表现良好。近日,美国麻省理工学院计算机科学与人工智能实验室的研究人员提出了一种无监督模型,即无需显式标注或分类即可从测试数据中学习的模型。这种模式可以翻译两种语言的文本,而无需在两种语言之间直接翻译。

Published by

风君子

独自遨游何稽首 揭天掀地慰生平

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注