Prediction Under Uncertainty with Error-Encoding Networks

论文链接:https://arxiv.org/abs/1711.04994

在本篇论文中,我们介绍一个新的框架,在存在不确定性的情况下执行时间预测。 它基于一个简单的想法,即解构未来状态的组成部分,这些组成部分可以从固有的难以预测的部分中预测出来,并将不可预测的组成部分编码成一个低维的隐变量,并将其馈送到前向模型。 我们的方法使用一个快速且易训练的监督训练目标。我们在多个数据集的视频预测上下文中对其进行评估,实验证明它能够持续生成多种预测,而不需要在隐空间或对抗训练中交替进行最小化。

Yann LeCun团队近日提出一种新型框架,错误编码网络Error-Encoding Networks,可在不确定环境中执行时间预测。实验证明它能够持续生成多种预测,而不需要在隐空间或对抗训练中交替进行最小化,并直接避免了模式崩溃问题。

在时间序列中学习前向模型是人工智能的核心任务,此类模型常应用于无监督学习、规划和压缩。 这项任务面临的一个主要挑战是如何处理多时间序列的多模式问题。当一个时间序列有多种有效的演化方向时,使用经典的 L1 或L2损失来训练模型会得到在各维度上取平均值或中值的预测结果,但这往往不是一个有效的预测。

近年来,生成对抗网络(Goodfellow et al.,2014)大行其道,它是一个通用网络框架,其中预测问题被表示为预测函数和表示损失的可训练的鉴别器网络之间的极小极大博弈。 通过使用可训练的损失函数,GAN理论上可以处理多种输出模式,因为包含所有输出模式的生成器将欺骗鉴别器进而促成网络收敛。然而,单一模式的生成器也可以欺骗鉴别器并使网络收敛,而且这种模式崩溃现象已在实践中被广泛观察到。 研究人员已经引入了一些变通方法来解决或减轻模式崩溃,如小批量鉴别,增加参数噪声(Salimans et al.,2016),通过展开的鉴别器(Metz et al。,2016)进行反向传播,以及使用多个GAN来覆盖不同的模式(Tolstikhin et al.,2017)。然而,其中很多技术可能带来额外的挑战,例如增加了实现的复杂性以及增加了计算成本。 当输出高度依赖于上下文时,例如视频预测(Mathieu et al., 2015; Isola et al., 2016),模式崩溃问题在条件生成设置中变得更加明显。

在本篇论文中,我们介绍一种新的允许在时间序列数据中进行鲁棒的多模式条件预测的网络架构。 它基于将未来状态分解为可从现状预测的确定性分量和由于未来模式不确定性的随机(或难预测)分量的简单直觉。 通过训练一个确定性网络,我们可以以网络预测的形式获得这个因子分解,以及相对于真实状态的预测误差。 这个错误可以被编码为一个低维的隐变量,它被传递到第二个网络,该网络被训练成通过学习这个附加信息来准确地校正确定性预测。我们称这个模型为错误编码网络(EEN)。 一言以蔽之,该框架在每个时间步骤包含三个函数映射:(i)从当前状态到未来状态的映射,将未来状态分为确定性和非确定性分量; (ii)从未来状态的非确定性分量到低维隐向量的映射; (iii)从当前状态到以隐向量(编码了未来状态的模式信息)为条件的未来状态的映射。虽然训练过程涉及所有映射,但推理阶段只涉及(iii)。

两个网络都是使用监督学习目标进行端对端训练的,并且使用学习的参数化函数来计算隐变量,因而训练过程简单且快。 我们将这种方法应用于来自游戏、机器人操作和模拟驾驶的视频数据集,并且表明该方法能够持续为未来的视频帧产生多模式预测。 虽然我们在本文中着重介绍视频,但是这种方法本身是通用的,原则上可以应用于任何连续值的时间序列。
模型

许多自然过程都带有一定程度的不确定性。 这种不确定性可能源自事物本身的随机过程,可能因为只观察到部分确定性过程,也可能是由于过程的复杂性大于前向模型的容量。 处理不确定性的一个自然的方法是通过隐变量来解释目标特性,而这些特性仅靠已知的输入是无法解释的。

假设我们有一组连续的矢量值,输入 – 目标对(x_i,y_i),其中目标取决于输入和一些固有的不可预测的因素。 例如,输入可以是一组连续的视频帧,目标可以是下一帧。 经典的隐变量模型,如k-均值或高斯混合,通过交替最小化关于隐变量和模型参数的损失来进行训练; 从概率论的角度讲,这是期望最大化算法(Dempster et al., 1977)。 在神经网络模型f_θ(x_i,z)的例子中,可以使用梯度下降来优化连续的隐变量,并且可以使用以下过程来训练模型:

save image
save image

实验

我们在不同领域的五种不同视频数据集(例如Atari Breakout、Atari Seaquest和Flappy Bird)、机器人操纵(Agrawal et al., 2016)和模拟驾驶(Zhang&Cho,2016)上测试了我们的方法。 它们具有明确的多模式结构,由于智能体的行为或其他随机因素,环境会发生变化,并且跨越多种视觉环境。 对于每个数据集,我们训练了我们的模型以前4帧为条件来预测之后1或4帧。 我们还训练了确定性基准模型和GAN来比较性能。相关代码见 https://github.com/mbhenaff/EEN