谷歌在语言偏见方面的翻译负责人以及为什么AI喜欢宗教文本

2019-04-26 17:28:32 编辑：来源：

导读你可能还记得去年有一连串关于谷歌翻译的新闻报道，在翻译出无意义的单词和短语时吐出不祥的宗教预言。Clickbait网站表明这可能是一个阴谋

你可能还记得去年有一连串关于谷歌翻译的新闻报道，在翻译出无意义的单词和短语时吐出不祥的宗教预言。Clickbait网站表明这可能是一个阴谋，但不是，只是谷歌的机器学习系统变得混乱并且依赖于他们接受培训的数据：宗教文本。

但正如Google Translate的负责人Macduff Hughes 最近对The Verge所说的那样，机器学习是让Google无用的翻译工具真正唱歌的原因。免费，简单和即时翻译是我们许多人认为理所当然的21世纪生活的特权之一，但没有AI就不可能实现。

早在2016年，Translate从一种称为统计机器翻译的方法转变为利用机器学习的方法，谷歌称之为“神经机器翻译”。旧模型一次翻译一个单词，导致大量错误，因为系统未能解释动词时态和词序等语法因素。但新的翻译逐句翻译，这意味着它在这种语言背景下的因素。

Hughes说，结果是“更自然，更流畅”的语言，他承诺会有更多的改进，例如翻译能够解释语气的微妙之处(说话者是正式的还是俚语?)并提供多种措辞选择。

对于谷歌而言，翻译也是一个毫不含糊的积极项目，正如其他人所指出的那样，它为公司更具争议性的人工智能工作提供了一些保障，就像它与军方合作一样。休斯解释了为什么谷歌继续支持翻译，以及该公司如何解决其人工智能培训数据的偏见。

为了清楚起见，编辑了这次访谈

您最近对Translate进行的一项重大更新是提供针对性别的翻译。是什么促使你这样做的?

这是两个动机在一起。一个是关注各种机器学习和AI产品中的社会偏见。这是谷歌和整个行业一直关注的问题; 机器学习服务和产品反映了他们接受培训的数据的偏见，反映了社会偏见，这些偏见强化甚至可能放大这些偏见。作为一家公司，我们希望成为解决这些问题的领导者，并且我们知道翻译是一种有这个问题的服务，特别是在男性/女性偏见方面。

语言的典型例子是医生是男性，护士是女性。如果这些偏见存在于一种语言中，那么翻译模型将学习它并放大它。例如，如果一个职业被称为[男性] 60%到70%的时间，那么翻译系统可能会学到这一点，然后将其表现为100%的男性。我们需要打击这一点。

许多用户正在学习语言; 他们想要了解他们表达事物的不同方式和可用的细微差别。所以我们已经知道很长一段时间我们需要能够显示多个翻译选项和其他细节。这一切都在性别项目中汇集在一起。

因为，如果你看一下偏见问题，对你能做些什么没有明确的答案。答案不是50/50或随机[在翻译中分配性别时]，而是为了给人们更多信息。只是告诉人们用这种语言说这个东西的方法不止一种，这就是它们之间的区别。翻译中存在许多文化挑战和语言挑战，我们希望在偏见问题上做一些事情，同时使翻译本身更有用。

在偏见和细微差别方面，你接下来要解决的问题是什么?

关于公平和偏见问题，有三大举措。一个是我们刚刚推出的更多内容。我们有完整的句子翻译与性别，但只推出土耳其语到英语。我们希望提高其质量并扩展到更多语言。我们为某些语言做过单词...

第二个领域是文档翻译。这是存在偏见的地方，但它需要非常不同的响应。例如，如果你用维基百科的文章讲述另一种语言的女性并翻译成英语，很可能你会和他和他一起看到很多英语代词。之所以会发生这种情况，是因为你会得到一个单独翻译的句子，并且源语言不会明确性别，因此通常会将他/他添加为默认值。现在，当你弄错了，这是一个特别冒犯的事情，但解决这个问题的方法与我们去年推出的方式完全不同。在这个例子中，可以简单地从[文档其余部分]的上下文中得到正确的答案。所以这是解决这个问题的研究和工程问题。

第三个领域是解决性别中立的语言模式。我们现在处于很多文化动荡的中间，不仅仅是英语，还有很多很多性别的语言。世界各地都有新兴的运动来创造性别中立的语言，我们收到了很多关于我们何时要解决的问题。经常引用的例子是用英语单独使用'他们'。它越来越普遍，即使在教科书和风格指南中没有实际被接受，指的是某人说'他们'而不是'他是'或'她是'。这也发生在西班牙语，法语和许多其他语言中。实际上，规则变化如此之快，甚至专家都跟不上。

去年发生在谷歌翻译上的奇怪事情让人们发现，如果你输入无意义的单词，它会吐出宗教文本的片段。它成为一种轻微的病毒现象，人们会对它进行各种奇怪的解释。你是怎么做到的?

我并不感到惊讶，但我对人们的反应感兴趣。[并且]在阴谋类型的东西，关于谷歌编码关于秘密宗教，外星人的神秘信息，以及你有什么。然而，它真正说明的是机器学习模型的一个普遍问题，即当它们获得意外输入时，它们会以意想不到的方式运行。这是我们正在解决的一个问题，因此如果你有一个荒谬的输入，它将不会产生感性输入。

但为什么会这样呢?我不相信你曾经在记录上提供过解释。

通常是因为你翻译的语言在训练数据中有很多宗教文本。对于我们拥有的每一种语言对，我们都会使用我们在万维网上找到的任何语言进行训练。因此，这些模型的典型行为是，如果它变得笨拙，它会挑选出目标端培训数据中常见的东西，以及许多这些资源匮乏的语言 - 其中没有大量的文本被翻译出来。网络供我们借鉴 - 生产的东西往往是宗教信仰。

有些语言，我们发现的第一个翻译材料是圣经的翻译。我们采取任何我们可以得到的东西，这通常很好，但在一个乱码的情况下，往往这是结果。如果基础翻译数据是法律文件，该模型将产生法律术语; 如果它是飞机飞行指导手册，它将产生飞机飞行指令。

那真是令人着迷。它让我想起詹姆斯国王圣经对英语的影响; 这个17世纪的翻译是如何成为我们今天使用的许多短语的来源。谷歌翻译会发生类似的事情吗?您的培训银行是否有任何奇怪的措辞来源?

好吧，有时我们会从互联网论坛上得到奇怪的东西; 比如，有时从游戏论坛或游戏网站俚语。那可能发生!随着更大的语言，我们有更多样化的培训数据，但是，有时你会从互联网的各个角落得到相当有趣的俚语。我担心现在没有具体的例子......

因此，谷歌翻译特别有趣，因为在人工智能由于部署方式和位置而遇到麻烦的时候，每个人都认为翻译是有益的，而且相对没有问题。它甚至是乌托邦式的。您认为Google为翻译提供资金的动机是什么?

我们是一个相当理想主义的公司，我认为翻译团队拥有的不仅仅是理想主义者的公平份额。我们努力确保您所说的内容仍然是真实的，这就是为什么反对偏见并寻找可能有害的误用翻译的重要性。

但为什么谷歌会投资呢?我们被问到很多，答案很简单。我们说我们的使命是组织世界的信息并使其普遍可用，并且“普遍可及”的部分非常非常远。只要世界上大多数人无法在线阅读信息，它就无法普遍获取。谷歌要实现其核心使命，需要解决翻译问题，而且我认为创始人十多年前就认识到了这一点。

你认为解决翻译是否可行?有一个最近的一篇文章中大西洋被认知的著名教授，侯世国，指出谷歌的“浅薄”翻译。你对他的批评有什么看法?

他所指出的是公平和真实的。有这些问题。但他们并没有真正站在我们关注的最前沿，因为实际上他们在我们看到的翻译中只发生了一小部分时间。当我们查看人们试图翻译的典型文本时，这些并不是现在的大问题。但他确实能够真正解决翻译问题并且能够在熟悉专业知识的领域及其语言问题上进行翻译是正确的，需要取得一些重大突破。只是从并行文本的示例中学习，将无法获得最后几个百分比的用例。

很长一段时间以来人们都认为翻译是一个AI完全问题，这意味着要完全解决翻译，你需要完全解决AI问题。我认为这是真的。但是你可以解决很多问题，我们现在正在填补这个空间。

标签：喜欢宗教文本