机器学习中潜变量的概念

什么是潜变量#

潜变量，潜在变量，与观测变量相对，意思是不可观测的随机变量。

那么潜变量可以被推断出来吗？可以。通过数学模型依据观测得的数据可推断潜在变量。其中用潜在变量解释观测变量的数学模型称为潜变量模型。

潜变量和现实一些因素是有关系的，测量这些因素表面上可行，实际上很困难，这些通常使用“隐变量（hidden variables）”来表示。另外一些情况下，一些抽象的概念也可以被理解为潜变量，比如分类，行为，心理状态，数据结构等等。

潜变量有什么用呢？好处在于潜变量可以降低数据的维度，大量的观测变量通过处理变为潜变量用于表示深层次的概念。

潜在空间（Latent Space）#

一句话，潜在空间即数据的紧凑表示形式。

这个空间中是对数据的压缩，其中就包含了数据的关键特征，其次维度较低，方便有效地表示了数据。

如果要训练一个手写数字的训练集，数据就是数字的图像。而现在你有一个可以对数字进行分类的模型，那么这个模型就已经学到了每个数字的特征，从而能够对数字进行分类。

那么从数据到模型学到特征的过程是“隐藏的”，也就是隐藏/潜在空间中的 Latent 的意思，“隐藏的”。

深度学习就是学习数据的特征并简化数据表示，我们就是找能够做到这个的模型。

为什么要进行数据压缩？#

为什么要把获得来的数据集压缩之后处理呢，直接用不行吗？

原因是模型到后面需要重建压缩数据（也就是解码器），那么这个模型就需要做到：存储所有相关的信息，忽略噪声（即只关注数据最重要的特征）。这时数据压缩就有必要了——去掉无关的噪声信息，使得存储数据的关键特征。

数据压缩后的这个“压缩状态”就是数据在潜在空间中的表示。

为什么我们数据的维度降低会使相似的图像在空间中“更接近”？#

这其中要理解几个概念。

什么是物质的相似？

物质是客观存在的。不存在完全相同的两种物质。物质有无穷多的属性，特征是某一特定的属性。不存在所有特征都相同的两个物质。

我们每次考虑观测对象是不是特定物质，是只考虑他们之间有限个特征。符合的特征越多，某个特征越接近，我们就说这个观测对象是不是越接近特定物质。

所以我们说观测对象与特定物质的相似，是指只考虑有限个特征的情况下的。相同的特征数量越多，特征之间的距离越接近，就说两者越相似。

举个实例

Two chairs and a desk

首先，完全相同的两个椅子是不存在的。尽管可以质感，外观，图像都一样，但是位置特征不同，生产过程不同，总会有某一特征的的特征值不一样。

如果我们看上面这张图片，我们或许会说，最左边的是椅子。这个过程是由人类感知形成的。可以确定，人类感知时，是考虑了很多不同特征的，形状特征、纹理特征等等。但也一定是只考虑有限个特征的，各个特征的偏向程度也是变化的、有影响的，比如上述我们会更忽视颜色特征的影响；也存在没有被考虑进来的特征，比如位置特征、朝向特征。

于是乎，我们通过视觉感知实现了评价两个椅子的相似，或者实现了评价我们观察的内容是否是椅子。注意，不同人在不同时刻对视觉的感知程度是不相同的，有时候会更偏向某个特征。

那么深度学习模型又如何完成视觉感知和物体识别呢？模型对某个观测对象的评价结果也不会像人一样会有偏向和受主观影响，模型会更多考虑物质的哪些特征呢？从感觉来说，对于评价是不是椅子这件事，主要考虑朝向特征的模型不是一个好模型，主要考虑颜色特征的模型不是一个好模型。

由以上的分析，再对应于具体的模型训练过程，可以有如下启发：

一个好的训练集，是指它能包含更多我们需要的特征，而且特征的特征值要尽可能准确，符合事实。
在训练过程中，要尽可能去除我们不需要的特征，或者削弱不重要特征的影响度。
对于不同的需求，我们对物质特征的侧重可能会有区别，因地制宜是个改进的办法。

这里进行数据降维，就是进行去除不重要特征的一种方法。

通过数据降维来减轻或去除不重要特征的原因是上面？怎么做到的？

怎么评判各个特征与相似性是相关还是不相关？
可以做到对于不同的特征，我可以调整不同特征的影响因子，来做到定制化视觉感知
如何让与相似性相关的特征保留下来，与相似性不相关的特征丢弃掉，怎么做的？
如何实现数据从高维到低维的转换？

参考#

Understanding Latent Space in Machine Learning | by Ekin Tiu | Towards Data Science