第4讲 拟合

一、引出

前面我们已经学习了,基于部分点,画出经过这些点的曲线的方法,插值方法是一个很好的进行预测的方法,但是它仍然存在一些弊端,首先如果点非常多,那么会出现最终的函数太复杂的情况,所以插值算法不适合样本量太多的情况。这里我们引出了拟合。
与插值问题不同,在拟合问题中不需要曲线一定能够经过给定的点,拟合问题的目标是寻求一个函数(曲线),使得该曲线在某种准则下与所有的数据点最为接近,即曲线拟合得最好(最小化损失函数)

二、拟合问题的步骤

(一)确定拟合曲线

可以使用专门的库进行多种曲线的尝试

(二)最小二乘法

由于拟合的目的是为了使数据与曲线最为接近,那么如何确定拟合曲线的参数呢,这里我们通过预测点与真实点之间的距离进行判断,当预测点与真实点之间距离的和相加最小时,这个时候的参数我们认为是最优拟合曲线的参数(但是应该受异常点的影响会有些大)。

求解最小二乘法

Pasted image 20240803082929.png

三、评价拟合

如何评价拟合的好坏,这里我们使用拟合优度。
Pasted image 20240803083013.png

这里的线性指的是针对参数线性(针对a,b)。
如果函数不是线性函数,我们可以用SSE