新的人工智能模型展示了机器如何从视觉、语言和声音中学习_科技

显示机器如何同时学习视觉、语言和声音的图像。

我们大多数人都有过关掉电视的经历。虽然我们可以在一定程度上了解故事，但缺少音轨会限制我们充分理解发生的事情的能力。

同样地，仅仅是听来自另一个房间的声音，就很容易错过很多信息。图像、声音和其他细节的多模态结合大大增强了我们对正在发生的事情的理解，无论是在电视上还是在现实世界中。

人工智能似乎也是如此。一种叫做MERLOT RESERVE的新问答模型可以进行开箱即用的预测，揭示了对多模态常识性的理解。它是最近由艾伦人工智能研究所(AI2)、华盛顿大学和爱丁堡大学的一个团队开发的。

作为新一代人工智能应用程序的一部分，该系统能够实现语义搜索、分析和问答(QA)，通过让它“观看”2000万个YouTube视频来训练它。这些功能已经被Twelve Labs和Clipr等初创公司商业化。

MERLOT RESERVE(简称RESERVE)，是基于团队之前的MERLOT模型建立的，代表随时间推移的多模态事件表示学习，具有事件的可重入监督。它在数百万个视频中进行了预先训练，通过图像、音频和文字的组合输入来学习。单独的帧允许系统进行空间学习，而视频级的训练给它时间信息，训练它关于随时间变化的元素之间的关系。

“人工智能处理事物的方式将与人类的方式不同，”计算机科学家、项目负责人罗文·泽勒斯(Rowan zeller)说。“但如果我们想要构建强大的人工智能系统，有一些普遍原则是很难避免的。我认为多模态肯定在其中。”

Rowan zeller是华盛顿大学和艾伦人工智能研究所的研究员。

因为我们生活在一个动态的世界里，所以这个团队想要探索建造能够同时从视觉、语言和声音学习的机器。在该报纸的一个例子中，有人被看到在煮爆米花。仅从图像和对话，我们就可以想象伴随它们的声音。未煮熟的玉米粒在锅的金属表面移动的声音最终可能会变成充满能量的“砰”声，变成蓬松的白色爆米花。

这种预测被称为“再入学习”，时间锁定的相关性使一种模式能够教育其他模式。一些发展心理学家假设，这就是我们学习视觉和世界知识的方式，通常没有老师。这也是RESERVE名称的基础:重入事件监督。

该模型在40秒长的视频片段上进行训练，其中文本和音频片段被“屏蔽”，不让系统看到。然后通过从四个多项选择选项中选择正确的屏蔽片段进行学习。然后从四个可能的理由中选择一个来证明它的答案。

这种方法不仅使RESERVE在半监督的训练中获得了最先进的结果，而且还能做出强有力的零射预测。在这种情况下，零概率预测的一个例子可能是“这个人在做什么?”这可以是手动的，也可以是自动的重写成“这个人是[MASK]”这样的语句。然后，该模型对一组提供的选项进行多项选择预测，比如“煮爆米花”或“吃爆米花”。

RESERVE在几个用于认知层次视觉理解的大规模数据集上进行了微调:VCR、TVQA和Kinetics-600。RESERVE表现出了最先进的性能，分别比之前的工作提高了5%、7%和1.5%。通过整合音频，该模型在Kinetics-600上达到了91.1%的准确率。

VCR (Visual Commonsense Reasoning)是一个没有音频的大规模数据集，用于认知层次的视觉理解。TVQA是一个基于6部热门电视剧(《老友记》、《生活大爆炸》、《老爸老妈浪漫史》、《豪斯医生》、《实习医生格蕾》和《城堡》)的大型视频QA数据集。最后，Kinetics-600是一个包含65万个视频剪辑的集合，涵盖了数百个人类动作类。

该研究论文将在今年6月的IEEE/CVF计算机视觉和模式识别国际会议上发表，根据该论文，与竞争模型相比，RESERVE显示出显著的性能改进。例如，它需要VisualBERT多模态模型所使用的浮点运算的五分之一。

该项目团队预计，视频预训练模型有一天可能会帮助低视力或失聪用户，或用于挖掘视频观看趋势的见解。然而，他们也认识到用于训练RESERVE的数据集会引入不可避免的偏见，这需要解决。

除了说出的单词，音频还可以提供许多附加的上下文信息。根据我们自己的经验，这并不会让我们感到惊讶，但AI的表现也会因此而得到显著改善，这一点着实令人着迷。这可能是因为在同步这些额外的信息时，可以产生新的统计相关性。

“音频是很多东西。不仅是声音，还有音效，听到这些音效确实能提高你对世界的理解，”泽勒斯说。

“另一件事是声音的语调，即人类交流的动态。如果你只看单词，而没有听上下文，你会错过很多。但如果有人带着一种特定的情感说出这个词，那么模型就能做得更好。事实上，我们发现确实如此。”

MERLOT和RESERVE是AI2的Mosaic团队的一部分，该团队专注于开发能够测量和开发机器常识的系统。几十年来，机器常识一直是人工智能领域的一个兴趣领域。能够考虑和预测真实世界中不同对象和过程之间的关系，将使我们的AI工具对我们更加有用。

然而，仅仅将一堆关于世界如何运作的事实和规则加载到一个系统中，并期望它工作是不够的。世界太复杂了，无法做到这一点。另一方面，我们从出生的那一刻起就通过各种感官与环境互动来学习。我们逐步建立对世界上发生了什么以及为什么发生的理解。一些机器常识项目使用类似的方法。对于梅鹿辄和RESERVE，结合额外的模式就像我们的感官一样提供额外的信息。

泽勒斯表示:“我认为，中长期来看，我真正感兴趣的是人工智能，它可以通过音频和手势等多种方式与我们对话，因此它可以与我们正在做的事情建立联系。”项目论文《MERLOT RESERVE: Neural script Knowledge through Vision and Language and Sound》的作者为Rowan zeller、Jiasen Lu、Ximing Lu、Youngjae Yu、Yanpeng Zhao、Mohammadreza Salehi、Aditya Kusupati、Jack Hessel、Ali Farhadi和Yejin Choi。在AI2中可以找到RESERVE的演示。

新的人工智能模型展示了机器如何从视觉、语言和声音中学习

相关推荐