噪声预测|噪声预测的无监督学习

噪声预测(噪声预测的无监督学习)
本文内容摘要1、本文从informax(信息最大化)算法入手,解释如何最大程度地保留输入数据信息,进而学习最优的密集表征 。
2、把表征限制在一个单位范围内,对于informax算法框架十分有利,本文阐明了其中的原因 。
3、一个分布均匀的确定性表征是否存在,以及informax算法标准是否达到了最大化,问题的答案非常明显 。因此,如果我们相信这样的解决方法是确实存在的,那么我们完全可以直接寻找接近均匀分布的确定性映射 。
4、“噪声目标法”(NAT)就是寻找一个在单位范围的边缘是均匀分布的确定性映射 。具体来说就是,从统一样本中,尽量缩小实际操作的“地球移动距离”(EMD) 。
5、Bojanowski和Joulin在他们的论文中提到了随机使用“匈牙利算法”来更新分配矩阵,在本文的最后,我也对此作了简单的阐述 。


通过信息最大化进行表征的学习假设我们现在将要学习来自于一些 pX分布的数据 xn的一个密集表征 。通常情况下,表征可以用一个随机变量zn表示,这个变量作经过了一些参数分布条件
的采样 。
xn~pX
zn~pZ|X=xn,
在变化的自编码器中,这个参数分布条件
会被称为“编码器”或者是“识别模型”,又或者是“摊销变化后端” 。不过重要的是,我们现在是跟“编码器”进行一对一工作,无需明确地指示出一个生成的分布

“信息最大化”原则的意思是一个好的表征的信息熵是密集分布的,同时还要保留输入X中尽可能多的信息 。这一目标可以正式表达为:
表示“互信息”,
表示“申农熵” 。
我还引入了下面的符号分布:
在实际中,这些“最优化问题”有可能是以各种不恰当的方式呈现的,所以这些问题本身也是存在问题的 。
1、一般情况下,边缘的熵是很难估测的 。我们需要采取一种比较智能的方式来限制
,不需要对熵进行实际的计算 。
2、如果一个表征具有确定性和可逆性,那么“互信息”在连续的空间内就是无限循环的,而这些最优化问题就会变得毫无意义 。所以,为了使这些最优化问题变得有意义,我们需要确保那些病态的可逆行为永远都不会出现 。
为了解决以上问题,我们可以作以下的改变:
1、首先,运用勒贝格有限测度,把Z的定义域限制在的
子集范围内,这样一来,微分熵
在这个定义域内就会始终受到均匀分布的熵的约束 。为了与论文内容一致,我们可以把表征定义域限制在欧几里得单位
的范围内 。
2、第二,尝试把
和多噪声表征

表示噪声)之间的信息最大化 。我将假定
遵循了一种球状的分布规则,而这个添加的噪声在实际操作中,从任何给定的范围
内,设定了一个
预测的上限(或者是设定了表征可逆性的上限);从而也框定了“互信息”,把它限制在一个有限值内 。那么我们的最优化问题就变成了:
这个损失函数生成了一种直观的感受:你可能正以一种非常随机的方式,把你的输入Xn在单位范围内映射为Zn,但是这样做,原始数据点Xn就会很容易从Zn的噪声版——
恢复 。换句话来说,我们是在寻找一个在某种程度上能够抵挡加性噪声的表征 。


确定和统一的表征

【噪声预测|噪声预测的无监督学习】

我们能很轻易地指出是否存在至少一个表征pZ|X;,这个表征具备以下两种特质:
第一,Zn是Xn的确定性函数;第二,
是在单位范围内的均匀分布 。
如果具备了以上特征,那么这个
就是信息最大化目标中的全局最优点 。
但值得关注的是,这个确定性的表征也许并不是独一无二的,可能会存在很多很多好的表征,尤其是当
时 。
再看这样的案例:假设X是一个标准的多元高斯,表征Z是X的一个正常的正交投影 。例如,针对一些正交转换A来说:
Z在单位范围内将会具备均匀分布,而这也是一个确定性的映射 。因此,Z是一个信息最大化的表征,它对任何同样正交映射A都十分有利 。
所以,如果我们假设只存在至少一个确定的、统一Px的表征,那么寻找确定的、能够把数据映射为大致均匀分布的表征就意义非凡了 。
这才是“噪声目标法”(NAT)的目的所在
为达到一个在表征空间里均匀的分布,NAT采用的方法是使“地球移动距离”(EMD)最小化 。首先,我们根据已有的数据点,随机画了尽可能多的均匀分布,我们把这些均匀分布看作Cn 。然后,我们试着把每个Cn与一个数据点配对,直到Cn和对应的表征