第4讲 拟合
一、引出
前面我们已经学习了,基于部分点,画出经过这些点的曲线的方法,插值方法是一个很好的进行预测的方法,但是它仍然存在一些弊端,首先如果点非常多,那么会出现最终的函数太复杂的情况,所以插值算法不适合样本量太多的情况。这里我们引出了拟合。
与插值问题不同,在拟合问题中不需要曲线一定能够经过给定的点,拟合问题的目标是寻求一个函数(曲线),使得该曲线在某种准则下与所有的数据点最为接近,即曲线拟合得最好(最小化损失函数)
二、拟合问题的步骤
(一)确定拟合曲线
可以使用专门的库进行多种曲线的尝试
(二)最小二乘法
由于拟合的目的是为了使数据与曲线最为接近,那么如何确定拟合曲线的参数呢,这里我们通过预测点与真实点之间的距离进行判断,当预测点与真实点之间距离的和相加最小时,这个时候的参数我们认为是最优拟合曲线的参数(但是应该受异常点的影响会有些大)。
求解最小二乘法
三、评价拟合
如何评价拟合的好坏,这里我们使用拟合优度。
这里的线性指的是针对参数线性(针对a,b)。
如果函数不是线性函数,我们可以用SSE。