彻底学会系列：一、机器学习之线性回归（二）

0. 概念和公式

请参考：一、机器学习之线性回归（一）

1. 涉及公式

1.1 简单线性回归

y = wx + b

y=wx+b

1.2 多元线性回归

\hat y = w_1X_1 + w_2X_2 … w_nX_n + w_0

y^=w1X1+w2X2…wnXn+w0

向量表示：

\hat y = W^TX

y^=WTX

1.3 高斯密度函数

(

;

)

exp

⁡

(

−

(

−

)

\ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

f(x;μ,σ2)=2π
σ1exp(−2σ2(x−μ)2)

1.4 最大似然估计

连乘：

(

∣

data

)

∏

(

;

)

\ L(\theta | \text{data}) = \prod_{i=1}^{n} P(X_i; \theta)

L(θ∣data)=∏i=1nP(Xi;θ)

对数：

ℓ

(

∣

data

)

∑

log

⁡

(

;

)

\ \ell(\theta | \text{data}) = \sum_{i=1}^{n} \log P(X_i; \theta)

ℓ(θ∣data)=∑i=1nlogP(Xi;θ)

1.5 最小二乘法

(

)

∑

(

)

−

)

J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2

J(θ)=21∑i=1n(hθ(xi)−yi)2

1.6 正规方程

(

)

−

\theta = (X^T X)^{-1} X^T y

θ=(XTX)−1XTy

1.7 均方误差

MSE

∑

(

)

−

)

\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2

MSE=n1∑i=1n(hθ(xi)−yi)2

2. 公式推导(不考虑多项式)

2.1 解决问题

建模问题：

目标：描述变量之间的线性关系。

问题描述：给定一组观测数据

(

x

1

,

y

1

)

,

(

x

2

,

y

2

)

,

.

.

.

,

(

x

n

,

y

n

)

(x_1, y_1), (x_2, y_2), …, (x_n, y_n)

(x1,y1),(x2,y2),…,(xn,yn)，其中 (x) 是自变量，(y) 是因变量，线性回归的目标是找到一条直线

y

=

θ

0

+

θ

1

x

y = \theta_0 + \theta_1 x

y=θ0+θ1x，使得这条直线最好地拟合给定的数据点。其中，

θ

0

\theta_0

θ0 是截距，

θ

1

\theta_1

θ1 是斜率。

解法：通过最小化均方误差（MSE）来找到最优的参数

θ

\theta

θ。这等价于解一个线性方程系统，其中涉及到对参数的偏导数等于零，或者使用正规方程（Normal Equations）。

∂

J

(

θ

)

∂

θ

0

=

0

\frac{\partial J(\theta)}{\partial \theta_0} = 0

∂θ0∂J(θ)=0

∂

J

(

θ

)

∂

θ

1

=

0

\frac{\partial J(\theta)}{\partial \theta_1} = 0

∂θ1∂J(θ)=0
预测问题：

目标：使用模型进行未知变量的预测。

问题描述：在建立了线性回归模型后，我们希望利用这个模型对未知数据进行预测。例如，给定新的

x

x

x 值，我们希望预测对应的

y

y

y 值。

解法：使用建立好的线性回归模型，将未知

x

x

x 值代入模型，得到预测的

y

y

y 值。

y

^

=

θ

0

+

θ

1

x

\hat{y} = \theta_0 + \theta_1 x

y^=θ0+θ1x

2.2 误差分析

误差计算：

∣

−

∣

\varepsilon_i = |y_i – \hat y |

εi=∣yi−y^∣

向量写法：

∣

−

∣

\varepsilon_i = |y_i – W^T x_i |

εi=∣yi−WTxi∣

\varepsilon_i

εi为误差

y_i

yi为样本实际值

\hat y

y^为预测值

假定所有的样本的误差都是独立的，上下的震荡，叠加之后形成的分布，它服从正态分布（高斯分布），服从均值为 0，方差为某定值的高斯分布。

2.3 误差分析到高斯密度函数

高斯密度函数（正态分布）公式：

(

;

)

exp

⁡

(

−

(

−

)

\ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

f(x;μ,σ2)=2π
σ1exp(−2σ2(x−μ)2)

\mu

μ ：均值，为0

\sigma^2

σ2 ：方差

x：误差变量

\varepsilon_i

εi

公式简化：

(

∣

)

exp

⁡

(

−

(

−

)

\ f(\varepsilon_i|\mu=0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(\varepsilon_i-0)^2}{2\sigma^2}\right)

f(εi∣μ=0,σ2)=2π
σ1exp(−2σ2(εi−0)2)

(

∣

)

exp

⁡

(

−

)

\ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)

f(εi∣0,σ2)=2π
σ1exp(−2σ2εi2)

2.4 高斯密度函数到最大似然估计

有：

(

∣

)

exp

⁡

(

−

)

\ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)

f(εi∣0,σ2)=2π
σ1exp(−2σ2εi2)

∏

(

∣

)

∏

exp

⁡

(

−

)

P= \prod_{i=1}^{n}f(\varepsilon_i|0, \sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)

P=∏i=1nf(εi∣0,σ2)=∏i=1n2π
σ1exp(−2σ2εi2)

有：

∣

−

∣

\varepsilon_i = |y_i – W^T x_i |

εi=∣yi−WTxi∣

最大似然估计：

∏

exp

⁡

(

−

（

−

)

P= \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i – W^T x_i )^2}{2\sigma^2}\right)

P=∏i=1n2π
σ1exp(−2σ2（yi−WTxi)2)

2.5 最大似然估计到最小二乘法

有：

∏

exp

⁡

(

−

（

−

)

P= \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i – W^T x_i )^2}{2\sigma^2}\right)

P=∏i=1n2π
σ1exp(−2σ2（yi−WTxi)2)

对数运算：

(

)

[

∏

exp

⁡

(

−

（

−

)

]

log_e(P)= log_e\left[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i – W^T x_i )^2}{2\sigma^2}\right)\right]

loge(P)=loge[∏i=1n2π
σ1exp(−2σ2（yi−WTxi)2)]

累乘变成累加：

(

)

[

∏

exp

⁡

(

−

（

−

)

]

log_e(P)= log_e\left[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i – W^T x_i )^2}{2\sigma^2}\right)\right]

loge(P)=loge[∏i=1n2π
σ1exp(−2σ2（yi−WTxi)2)]

∑

[

exp

⁡

(

−

（

−

)

]

= \sum_{i=1}^{n}log_e\left[\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{（y_i – W^T x_i )^2}{2\sigma^2}\right)\right]

=∑i=1nloge[2π
σ1exp(−2σ2（yi−WTxi)2)]

∑

[

−

（

−

)

]

= \sum_{i=1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{（y_i – W^T x_i )^2}{2\sigma^2}\right]

=∑i=1n[loge2π
σ1−2σ2（yi−WTxi)2]

∑

[

−

(

−

)

]

= \sum_{i=1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{1}{2}. \frac{1}{\sigma^2}.(y_i – W^T x_i)^2\right]

=∑i=1n[loge2π
σ1−21.σ21.(yi−WTxi)2]

最大似然求对数后，

、

\pi 、\sigma

π、σ都是常量，可忽略，

(

−

)

(y_i – W^T x_i)^2

(yi−WTxi)2肯定大于零。求最大值问题，转变为求最小值问题（求减式后边的值）：

(

∣

data

)

∑

(

−

)

\ L(\theta | \text{data}) = \frac{1}{2}.\sum_{i=1}^{n} (y_i – W^T x_i)^2

L(θ∣data)=21.∑i=1n(yi−WTxi)2

可写成最小二乘法：

(

)

h_\theta(x_i) = W^T x_i

hθ(xi)=WTxi

(

)

∑

(

)

−

)

J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i )^2

J(θ)=21∑i=1n(hθ(xi)−yi)2

2.6 最小二乘法到正规方程

有：

(

)

∑

(

)

−

)

J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i )^2

J(θ)=21∑i=1n(hθ(xi)−yi)2

可写成：

(

)

(

−

)

(

−

)

J(\theta) = \frac{1}{2}(X\theta – y_i)^T(X\theta – y_i)

J(θ)=21(Xθ−yi)T(Xθ−yi)

(

)

(

−

)

(

−

)

J(\theta) = \frac{1}{2}(\theta^TX^T – y_i^T)(X\theta – y_i)

J(θ)=21(θTXT−yiT)(Xθ−yi)

(

)

(

−

)

J(\theta) = \frac{1}{2}(\theta^TX^TX\theta -\theta^TX^Ty_i – y_i^TX\theta + y^Ty_i)

J(θ)=21(θTXTXθ−θTXTyi−yiTXθ+yTyi)

进行求导（注意X、y是已知量，

\theta

θ是未知数）

′

(

)

(

−

)

′

J'(\theta) = \frac{1}{2}(\theta^TX^TX\theta -\theta^TX^Ty_i – y_i^TX\theta + y^Ty_i)’

J′(θ)=21(θTXTXθ−θTXTyi−yiTXθ+yTyi)′

′

(

)

(

−

)

J'(\theta) = X^T(X\theta – y)

J′(θ)=XT(Xθ−y)

令导数为0：

(

−

)

0 = X^T(X\theta – y)

0=XT(Xθ−y)

X^TX\theta = X^Ty

XTXθ=XTy

两边乘逆矩阵

(

)

−

(X^TX)^{-1}

(XTX)−1进行转化,

I 单位矩阵为1：

(

)

−

(

)

−

(X^TX)^{-1}X^TX\theta = (X^TX)^{-1}X^Ty

(XTX)−1XTXθ=(XTX)−1XTy

(

)

−

I\theta = (X^TX)^{-1}X^Ty

Iθ=(XTX)−1XTy

最小二乘法：

(

)

−

\theta = (X^TX)^{-1}X^Ty

θ=(XTX)−1XTy

2.7 最小二乘法和均方误差

(

)

∑

(

)

−

)

J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2

J(θ)=21∑i=1n(hθ(xi)−yi)2

MSE

∑

(

)

−

)

\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2

MSE=n1∑i=1n(hθ(xi)−yi)2

相似但用处不同：

(

)

J(θ)

J(θ) : 模型训练的损失函数，通过梯度下降等优化算法最小化代价函数

MSE

\text{MSE}

MSE: 评估模型的性能，衡量模型的预测值与真实值之间的平均平方误差

本文来自网络，不代表协通编程立场，如若转载，请注明出处：https://www.net2asp.com/a099684f97.html

彻底学会系列：一、机器学习之线性回归（二）

0. 概念和公式

1. 涉及公式

1.1 简单线性回归

1.2 多元线性回归

1.3 高斯密度函数

1.4 最大似然估计

1.5 最小二乘法

1.6 正规方程

1.7 均方误差

2. 公式推导(不考虑多项式)

2.1 解决问题

2.2 误差分析

2.3 误差分析 到 高斯密度函数

2.4 高斯密度函数 到 最大似然估计

2.5 最大似然估计 到 最小二乘法

2.6 最小二乘法 到 正规方程

2.7 最小二乘法 和 均方误差

相关推荐

2.3 误差分析到高斯密度函数

2.4 高斯密度函数到最大似然估计

2.5 最大似然估计到最小二乘法

2.6 最小二乘法到正规方程

2.7 最小二乘法和均方误差