【机器学习】最小中值平方法-CDA数据分析师官网

热线电话：13121318867

首页精彩阅读【机器学习】最小中值平方法

【机器学习】最小中值平方法

2017-07-24

【机器学习】最小中值平方法

最小中值平方法

最小中值平方法是通过求解下面的非线性最小问题来估计参数的

LMedS记录的是所有样本中，偏差值居中的那个样本的偏差，这种方法对错误匹配和外点有很好的鲁棒性。

不像M-estimator，LMedS问题不能直接化简为带权重的最小二乘问题，对于LMedS估计没有一个具体的公式。

LMedS是从样本中随机抽选出一个样本子集，使用LS对子集计算模型参数，然后计算所有样本与该模型的偏差。

具体方法是根据下面方法进行曲线估计：

假设给定n个点：
1.采用Monte Carlo技术进行抽取包含p个点的m个样本集。对于目前的问题，选择p=5，因为5 个点就可以确定一个二次曲线。

2.用每一个样本集求出二次曲线Pj。

3.对于每一个二次曲线Pj，可求出整个数据集残差平方的中值Mj。

对于第i个点到二次曲线的残差有多种选择，根据需要的精度和计算效率，可以选择algebraic distance、Euclidean distance 、gradient weighted distance。

4.求取使得最小的。

现在的问题是：怎样确定m的值？？如果一个样本的p个点均是内点，则为一个好的样本。假设一个数据集包含的外点，则m个样本中至少有一个是好的样本的概率是

一般包含好点的概率P接近于1，给定p和

若包含外点的百分比=40%，P=0.99，则m=57；可以通过并行算法加快算法的速度，使得对于每个子集的处理均相互独立。

如果数据集存在高斯噪音，LMedS的效率将会非常低。为了弥补这种缺陷，提出了带权重的最小二乘法，标准差的估计由下式给出

为最小的中值。常数1.4826使得在出现高斯噪音的时候，和最小二乘方法的效率一样。5/(n-p)用来补偿数量太少。基于，我们可以给每一项分配一个权重系数

是第i个点相对于二次曲线P的残差，如果某个点所对应的权重系数为0，则为外点，应剔除掉。二次曲线P则可以由下面带权重的最小二乘问题求解

如前所述，可以通过采用Monte-Carlo技术来提高LMedS方法计算效率。然而，通过这种方法生成的样本中的5个点很有可能非常靠近，这种情况在曲线拟合过程中是应该尽量避免的，因为用这些点进行曲线拟合非常不稳定，而且通常会得到错误的结果。对每一个样本进行有效性检验，将会非常耗时，降低整个算法的计算效率。为了保证算法的鲁棒性和有效性，我们采用一种基于分组的规则的随机抽样法（regularly random selection method based on bucketing techniques），具体实现过程如下：

首先，计算第一幅图像中点坐标的极大极小值，然后将坐标点所在的区域均匀划分成组（在实验中，b=8）。每一个组将包含一系列的点，同时也包括一些匹配点。最后，剔除没有匹配点的分组。为了生成包含5个点的一个样本，首先随机选择5个相互不同的组，然后在每一个组里随机选取一个匹配点。

现在任然存在的问题是：到底需要多少个样本？如果坏点在空间中均匀分布，且每一组有相同的点数，随机选择是一种均匀分布则33式仍然可用。但是，一般情况下各组所包含的点数可能相差会非常大。由此造成的结果就是，包含点数少的组中的点比包含点数多的组中的点被选择地可能性更大。可以用如下的方法来说明：

假设共有I个组，我们将0到1分成I个区间，则第i个区间的宽度是是第i组点的个数。在选择组的过程中，由均匀随机数发生器（uniform random generator）产生一个0到1的随机数，这个随机数落入哪个区间，则选择哪个组。

Figure 6: Interval and bucket mapping

可以用这种方法对两幅非标定的图像进行匹配。对于给定的两幅未标定图像，唯一能用的几何约束是极线约束。先采用传统的方法（correlation and relaxation methods）找到初始的匹配点，然后利用最小中值平方法（LMedS）剔除初始匹配中的错误匹配。图像间的极线几何关系可以由图像中有实际意义的准则精确估计出来。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；