Switchable Temporal Propagation Network

导读:本文是新近 post 出的一篇视频 propagation 相关的工作。主要从理论角度证明了 TPN 网络的两个要点

a)将全局转换矩阵正则化为正交矩阵,视频帧的 “style energy” 在 propagation 时可以很好的保留下来。

b)上面说的正则化可以通过在本文提出的 TPN 上对视频帧 pairs 上进行 bi-directional train 实现(我猜,所谓的双向训练就是随机调换视频帧 pairs 的先后顺序)

p.s. 本工作据称可用于三个任务上,都取得了 SOTA 的效果。1. 视频上色 2. 视频预测 3. 视频分割

save image

上图即为 TPN 模型,其从关键帧(k)获取已知的属性映射(例如,颜色,HDR,分割 mask ,等等),并将其迁移到临近的帧(k +τ),此过程即为 propagation。传播由一些已知信息(例如,亮度,LDR,RGB图像)通过可学习的变换矩阵 G 引导完成

 

在时域上学习 propagation 的时候,作者贯彻两个原则:

a)双向性,即一对帧之间的传播应该是可逆的
b)一致性,即目标属性的 “style energy”(例如,全局饱和度)在传播过程中应保留下来。 我们在理论上证明:在TPN中执行这两个原则是等效的 确保变换矩阵相对于每个变换矩阵是正交的 传播方向。这个理论结果使我们能够实现TPN 新颖的,特殊的网络架构 – 可切换的 TPN(见图2) – 没有 明确地解决转换矩阵。它使用双向训练 对于传播模块中的一对帧,其由切换引导 输出地图来自指导CNN网络。

save image

上图是本篇工作的详细网络图例,前半部分的 guidence network 就是用来 transform property 的。然后将 output maps 和第 k 帧图一起输入到后半部分的 propagation network。整个 propagation 部分不是很详细,起码我是没看懂具体的操作方式?就把 output maps switch 一下就可以啦?如此不就是变相的 data agumentation?具体还是等作者的代码部分。。。不过效果还是不错的。