首页 > 资讯 > 科技 > 正文
2022-02-04 06:21

AI2发布了一个问答模型的演示版,据称它的性能优于GPT-3

从数字时代开始,我们就向电脑寻求答案。这一点在被称为问答(QA)的计算机科学学科中表现得最为明显。QA与自然语言处理和信息检索领域相重叠,最初使用手工制作的知识库来回答问题。然而,如今,这些系统越来越多地使用机器学习和像OpenAI的GPT-3这样的预训练语言模型来实现它们的结果。

西雅图艾伦人工智能研究所(AI2)最近开发了一种最新、最具创新性的QA模型。Macaw是“多角度c(q)问题回答”的缩写,是一个开源项目,可以通过GitHub向社区开放。

如果你想知道金刚鹦鹉是如何工作的,AI2将从今天开始向公众提供他们的交互式演示。您可以使用该演示来探索Macaw的答案,并在一组基准问题上将它们与GPT-3语言模型给出的答案进行比较。

Macaw是建立在谷歌预先训练的开源T5语言模型之上的,它的规模还不到众所周知的GPT-3语言模型的十分之一。然而,尽管金刚鹦鹉的体积要小得多,它在“挑战300”上的表现却比GPT-3高出10%以上。“挑战300”是一套包含300个问题的问答系统,旨在挑战问答系统的各种极限。在与其他三种QA系统的性能比较中,金刚鹦鹉的得分为75%,相比之下,GPT-3和AI2的侏罗纪-1的得分为65%,谷歌的T5-CBQA的得分为57%。(T5-Closed书QA)

人工智能2的项目负责人、高级研究经理彼得·克拉克(Peter Clark)表示:“对我来说,最有趣的是,金刚鹦鹉能给出相当惊人的答案,甚至能让像我这样在人工智能领域工作多年的人感到惊讶。”克拉克在人工智能领域工作了30多年。

在现有的预先训练的QA系统中,没有一个以前能够执行得像GPT-3的少射模型那样好。少镜头模型根据有限数量的样本生成答案。

但那是在金刚鹦鹉出现之前。金刚鹦鹉和GPT-3之间的相对性能似乎违反直觉,因为GPT-3基于1750亿个参数,而金刚鹦鹉的T5模型只使用了110亿个参数。这些参数就是模型神经网络中的权重和偏差。这可以被认为是预训练语言模型的规模和整体复杂性的一般标志,近年来,规模的增加伴随着能力的提高。但Macaw的QA方法却产生了巨大的影响。

许多早期的QA系统依赖于查询结构化数据库来获得答案:输入一个问题,系统就会输出相应的答案。但最近,QA系统已经建立在预先训练的语言模型的基础上,这些模型具有更大的通用性。在Macaw的例子中,它的多角度方法允许它使用不同的输入和输出组合来实现令人惊讶的令人印象深刻的结果。

“我们不是只给它一种排列,”克拉克解释说,“而是给它所有这些不同的排列,这有两个好处。一个是,在原则上,它应该在所有这些单独的任务中提高性能。其次,它允许更多的灵活性在使用系统。”

金刚鹦鹉通过组合使用“槽”作为输入和输出来实现这一点。这些插槽是上下文,问题,多项选择,答案和解释。通过使用这些槽的不同“角度”或组合作为输入,可以产生不同的、通常更精确的输出。(见下图)

例如,为了得到答案,您可能会输入一个问题及其上下文。或者你可以给Macaw一个问题,一个答案和上下文,系统会返回一组多项选择作为它的输出。金刚鹦鹉甚至可以为它的答案提供解释,尽管研究人员认为这些解释的质量低于该模型产生的其他结果。

克拉克解释说:“我们用它来解释问题和答案。”所以,我们可以说,我们有了这个问题的答案。你能给我们解释一下吗?金刚鹦鹉也能做到这一点。”

通过递归地将输入和输出组合成不同的组合,金刚鹦鹉的输出进一步得到改善,因此它们可以反馈到系统中,通常提高最终输出的准确性。其结果是一个更强的“零机会”表现。在这里,“零机会”指的是对那些金刚鹦鹉之前没有给出过例子的问题给出答案。这相当于一种推理,是人们进行推理的一种变体,根据证据得出结论。虽然系统在这方面不如我们,这并不令人惊讶,但它仍然令人印象深刻。

尽管金刚鹦鹉得出的答案与我们非常不同,但它有点类似于我们自己的推理。几条信息往往比单个项目或数据点更有帮助,即使它们可能不是全部直接相关。不同的背景也可能改变我们得出的结论。在某种程度上,金刚鹦鹉也是如此。

人工智能面临的一个持续挑战是,让它像人类一样,对世界有基本的认识。为此,AI2有自己的Mosaic项目,由Yejin Choi领导的团队专注于开发机器常识推理。

但金刚鹦鹉也表现出相当程度的常识,因为它接受了数百万个现实世界的问题和答案的训练。结合它的零概率推理能力,有一天,金刚鹦鹉和其他常识系统可以互相支持,互相促进和加强对方的能力,这是可行的。

克拉克承认这一点。他说:“两家公司的业务有很大的重叠,我们两个团队的工作确实非常密切。”关于金刚鹦鹉的方法和方法的细节可以在研究论文中找到,由AI2的Oyvind Tafjord和Peter Clark撰写的《用金刚鹦鹉回答通用问题》。

相关推荐