model_insight

发表于 2019-05-13 分类于 Tutorial

模型构建

最近 SE-net, Non-local, GLoRe, GC-net, 的出现，我们开始更多的通过显式的约束来构建网络结构。其实这种通过显式的约束来构建模型的方式，例如通过显式的可变性模块构建空间关系的 Deformable conv.

仿射变换（全局模式，局部模式）

其实在构建网络的时候，我们有很多显式的约束，例如图像空间中物体的仿射变换：

多尺度
旋转
平移

在网络中多尺度，可以被不同大小的卷积核近似模仿，而最近的trident-net，用了共享权值的多尺度网络更合理的解决了多尺度问题。并且最近的octava conv slow-fast 也可以看作一种不同尺度的建模。可变性卷积可以看作是图像空间的仿射变换的拆分。

语义相关性

在构建网络中除了我们关注物体的空间表现形式。我们往往还会关心图像中物体的相互关系，或者是不通层次的语义之间的关系，或者同一层次语义之间关系。那么这里我们就引出了三个我们想要建模的概念：

图像中语义的空间关系
同一层次的语义之间的关系
不同层次的语义之间的关系

这里我们定义一些符号 $f \in R^{c \ast h \ast w}$ 的三维的向量，这里我们对这个原始特征进行变形为 $nf \in R^{c \ast hw}$.
那么图像内部的空间关系的构建，也是是我们所说的 non-local net, 通过枚举图像中所有空间位置之间的相互关系，对相关的特征进行聚合，获得最终的特征表达。大致可以表示为：
$$ff=nf \ast softmax_{c=1}(nf^T \ast nf) +nf$$

那SE_net描述的同一层次的语义相关性，或者也可以认为是注意力机制：
$$ff= \Theta (\max_{c=1}(nf) \times f$$
这里的 $\Theta$ 对通道之间的关系进行建模，以此获得更重要的通道。

在GC-net中，空间的约束并不是non-local，因为non-local的计算量是非常大的，尤其是当特征图的特别大的时候，所以在GC中可以看作一种自注意力机制，有点像CAM之类的东西，并没有对图像中内部关系进行建模。但是这样做的好处就是有效的降低了计算量。

其实在分类问题中，我们应该更深入的思考问题，空间的相关性，和特征的相关性怎样才能更好的被建模。

建模什么样的空间相关性？
语义之间的相关性怎么建模？被用来干什么？

空间的相关性，被用来做什么?

在视频的理解过程中，空间的相关性一般被用来对相邻帧内部的物体的相关性进行建模的，类似轨迹聚类这种。但是在图像的分类中，空间聚类被用来干什么。从可变性卷积，我们看一看到空间的相关性，很多时候是物体的共生性，也就是同一个物体的不同的part之间的共生性，或者是其他更多语义上的共生性，这种共生性在语义上可能并不具有non-local中的特征相似性。所以对这种建模，更好的方式进行建模。

语义之间的相关性怎么建模？被用来干什么？

在SE_net中，使用的 $\Theta$ 是对通道之间的相关性进行建模的，可是这个相关性是什么呢？ 其实并没有很好的回答。那么怎么才能更好的理解这种相关性呢？

同一层次的语义之间的关系，我最先想到的就是 GRAM matrix, bilinear pooling，style transfer中使用作为图像的有效表达。大致可以表示为：
$$ff=nf \ast nf^T$$
这里很好的保存了不同通道之间的相关性，这个和non-local看着十分相似。

假设 1. 相关性大特征对分类更加有效，相当于对细小特征空间的细分，所以应该加强这部分的特征。

假设 2. 相关性大的特征影响了空间的分布，我们应该使得空间更加的均匀，所以应该抑制。

那么我们有了相关性，有了语义的相关性，和两个假设我们应该怎么对这些特征进行建模呢？

$$ff= sigmoid(\Phi \sum_{c=1}(nf \ast nf^T)) \times f$$

或者是
$$ff= (1-sigmoid(\Phi \sum_{c=1}(nf \ast nf^T))) \times f$$

有效性的问题是遏制Gram矩阵模块化的最主要的问题，计算量很大，但是我们可以通过降低resolution来提高效率。