彻底学会系列:一、机器学习之线性回归(二)
0. 概念和公式
请参考:一、机器学习之线性回归(一)
1. 涉及公式
1.1 简单线性回归
y
=
w
x
+
b
y = wx + b
y=wx+b
1.2 多元线性回归
y
^
=
w
1
X
1
+
w
2
X
2
.
.
.
w
n
X
n
+
w
0
\hat y = w_1X_1 + w_2X_2 … w_nX_n + w_0
y^=w1X1+w2X2…wnXn+w0
向量表示:
y
^
=
W
T
X
\hat y = W^TX
y^=WTX
1.3 高斯密度函数
f
(
x
;
μ
,
σ
2
)
=
1
2
π
σ
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
\ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
f(x;μ,σ2)=2π
σ1exp(−2σ2(x−μ)2)
1.4 最大似然估计
连乘:
L
(
θ
∣
data
)
=
∏
i
=
1
n
P
(
X
i
;
θ
)
\ L(\theta | \text{data}) = \prod_{i=1}^{n} P(X_i; \theta)
L(θ∣data)=∏i=1nP(Xi;θ)
对数:
ℓ
(
θ
∣
data
)
=
∑
i
=
1
n
log
P
(
X
i
;
θ
)
\ \ell(\theta | \text{data}) = \sum_{i=1}^{n} \log P(X_i; \theta)
ℓ(θ∣data)=∑i=1nlogP(Xi;θ)
1.5 最小二乘法
J
(
θ
)
=
1
2
∑
i
=
1
n
(
h
θ
(
x
i
)
−
y
i
)
2
J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2
J(θ)=21∑i=1n(hθ(xi)−yi)2
1.6 正规方程
θ
=
(
X
T
X
)
−
1
X
T
y
\theta = (X^T X)^{-1} X^T y
θ=(XTX)−1XTy
1.7 均方误差
MSE
=
1
n
∑
i
=
1
n
(
h
θ
(
x
i
)
−
y
i
)
2
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2
MSE=n1∑i=1n(hθ(xi)−yi)2
2. 公式推导(不考虑多项式)
2.1 解决问题
建模问题:
目标: 描述变量之间的线性关系。
问题描述: 给定一组观测数据
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
.
.
.
,
(
x
n
,
y
n
)
(x_1, y_1), (x_2, y_2), …, (x_n, y_n)
(x1,y1),(x2,y2),…,(xn,yn),其中 (x) 是自变量,(y) 是因变量,线性回归的目标是找到一条直线
y
=
θ
0
+
θ
1
x
y = \theta_0 + \theta_1 x
y=θ0+θ1x,使得这条直线最好地拟合给定的数据点。其中,
θ
0
\theta_0
θ0 是截距,
θ
1
\theta_1
θ1 是斜率。
解法: 通过最小化均方误差(MSE)来找到最优的参数
θ
\theta
θ。这等价于解一个线性方程系统,其中涉及到对参数的偏导数等于零,或者使用正规方程(Normal Equations)。
∂
J
(
θ
)
∂
θ
0
=
0
\frac{\partial J(\theta)}{\partial \theta_0} = 0
∂θ0∂J(θ)=0
∂
J
(
θ
)
∂
θ
1
=
0
\frac{\partial J(\theta)}{\partial \theta_1} = 0
∂θ1∂J(θ)=0
-
预测问题:
目标: 使用模型进行未知变量的预测。
问题描述: 在建立了线性回归模型后,我们希望利用这个模型对未知数据进行预测。例如,给定新的
x
x
x 值,我们希望预测对应的
y
y
y 值。
解法: 使用建立好的线性回归模型,将未知
x
x
x 值代入模型,得到预测的
y
y
y 值。
y
^
=
θ
0
+
θ
1
x
\hat{y} = \theta_0 + \theta_1 x
y^=θ0+θ1x
2.2 误差分析
误差计算:
ε
i
=
∣
y
i
−
y
^
∣
\varepsilon_i = |y_i – \hat y |
εi=∣yi−y^∣
向量写法:
ε
i
=
∣
y
i
−
W
T
x
i
∣
\varepsilon_i = |y_i – W^T x_i |
εi=∣yi−WTxi∣
ε
i
\varepsilon_i
εi为误差
y
i
y_i
yi为样本实际值
y
^
\hat y
y^为预测值
假定所有的样本的误差都是独立的,上下的震荡,叠加之后形成的分布,它服从正态分布(高斯分布),服从均值为 0,方差为某定值的高斯分布。
2.3 误差分析 到 高斯密度函数
高斯密度函数(正态分布)公式:
f
(
x
;
μ
,
σ
2
)
=
1
2
π
σ
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
\ f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
f(x;μ,σ2)=2π
σ1exp(−2σ2(x−μ)2)
μ
\mu
μ :均值,为0
σ
2
\sigma^2
σ2 :方差
x
x
x:误差变量
ε
i
\varepsilon_i
εi
公式简化:
f
(
ε
i
∣
μ
=
0
,
σ
2
)
=
1
2
π
σ
exp
(
−
(
ε
i
−
0
)
2
2
σ
2
)
\ f(\varepsilon_i|\mu=0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(\varepsilon_i-0)^2}{2\sigma^2}\right)
f(εi∣μ=0,σ2)=2π
σ1exp(−2σ2(εi−0)2)
f
(
ε
i
∣
0
,
σ
2
)
=
1
2
π
σ
exp
(
−
ε
i
2
2
σ
2
)
\ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)
f(εi∣0,σ2)=2π
σ1exp(−2σ2εi2)
2.4 高斯密度函数 到 最大似然估计
有:
f
(
ε
i
∣
0
,
σ
2
)
=
1
2
π
σ
exp
(
−
ε
i
2
2
σ
2
)
\ f(\varepsilon_i|0, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)
f(εi∣0,σ2)=2π
σ1exp(−2σ2εi2)
P
=
∏
i
=
1
n
f
(
ε
i
∣
0
,
σ
2
)
=
∏
i
=
1
n
1
2
π
σ
exp
(
−
ε
i
2
2
σ
2
)
P= \prod_{i=1}^{n}f(\varepsilon_i|0, \sigma^2)=\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{\varepsilon_i^2}{2\sigma^2}\right)
P=∏i=1nf(εi∣0,σ2)=∏i=1n2π
σ1exp(−2σ2εi2)
有:
ε
i
=
∣
y
i
−
W
T
x
i
∣
\varepsilon_i = |y_i – W^T x_i |
εi=∣yi−WTxi∣
最大似然估计:
P
=
∏
i
=
1
n
1
2
π
σ
exp
(
−
(
y
i
−
W
T
x
i
)
2
2
σ
2
)
P= \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right)
P=∏i=1n2π
σ1exp(−2σ2(yi−WTxi)2)
2.5 最大似然估计 到 最小二乘法
有:
P
=
∏
i
=
1
n
1
2
π
σ
exp
(
−
(
y
i
−
W
T
x
i
)
2
2
σ
2
)
P= \prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right)
P=∏i=1n2π
σ1exp(−2σ2(yi−WTxi)2)
对数运算:
l
o
g
e
(
P
)
=
l
o
g
e
[
∏
i
=
1
n
1
2
π
σ
exp
(
−
(
y
i
−
W
T
x
i
)
2
2
σ
2
)
]
log_e(P)= log_e\left[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right)\right]
loge(P)=loge[∏i=1n2π
σ1exp(−2σ2(yi−WTxi)2)]
累乘变成累加:
l
o
g
e
(
P
)
=
l
o
g
e
[
∏
i
=
1
n
1
2
π
σ
exp
(
−
(
y
i
−
W
T
x
i
)
2
2
σ
2
)
]
log_e(P)= log_e\left[\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right)\right]
loge(P)=loge[∏i=1n2π
σ1exp(−2σ2(yi−WTxi)2)]
=
∑
i
=
1
n
l
o
g
e
[
1
2
π
σ
exp
(
−
(
y
i
−
W
T
x
i
)
2
2
σ
2
)
]
= \sum_{i=1}^{n}log_e\left[\frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right)\right]
=∑i=1nloge[2π
σ1exp(−2σ2(yi−WTxi)2)]
=
∑
i
=
1
n
[
l
o
g
e
1
2
π
σ
−
(
y
i
−
W
T
x
i
)
2
2
σ
2
]
= \sum_{i=1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{(y_i – W^T x_i )^2}{2\sigma^2}\right]
=∑i=1n[loge2π
σ1−2σ2(yi−WTxi)2]
=
∑
i
=
1
n
[
l
o
g
e
1
2
π
σ
−
1
2
.
1
σ
2
.
(
y
i
−
W
T
x
i
)
2
]
= \sum_{i=1}^{n}\left[log_e\frac{1}{\sqrt{2\pi}\sigma} -\frac{1}{2}. \frac{1}{\sigma^2}.(y_i – W^T x_i)^2\right]
=∑i=1n[loge2π
σ1−21.σ21.(yi−WTxi)2]
最大似然求对数后,
π
、
σ
\pi 、\sigma
π、σ都是常量,可忽略,
(
y
i
−
W
T
x
i
)
2
(y_i – W^T x_i)^2
(yi−WTxi)2肯定大于零。求最大值问题,转变为求最小值问题(求减式后边的值):
L
(
θ
∣
data
)
=
1
2
.
∑
i
=
1
n
(
y
i
−
W
T
x
i
)
2
\ L(\theta | \text{data}) = \frac{1}{2}.\sum_{i=1}^{n} (y_i – W^T x_i)^2
L(θ∣data)=21.∑i=1n(yi−WTxi)2
可写成最小二乘法:
h
θ
(
x
i
)
=
W
T
x
i
h_\theta(x_i) = W^T x_i
hθ(xi)=WTxi
J
(
θ
)
=
1
2
∑
i
=
1
n
(
h
θ
(
x
i
)
−
y
i
)
2
J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i )^2
J(θ)=21∑i=1n(hθ(xi)−yi)2
2.6 最小二乘法 到 正规方程
有:
J
(
θ
)
=
1
2
∑
i
=
1
n
(
h
θ
(
x
i
)
−
y
i
)
2
J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i )^2
J(θ)=21∑i=1n(hθ(xi)−yi)2
可写成:
J
(
θ
)
=
1
2
(
X
θ
−
y
i
)
T
(
X
θ
−
y
i
)
J(\theta) = \frac{1}{2}(X\theta – y_i)^T(X\theta – y_i)
J(θ)=21(Xθ−yi)T(Xθ−yi)
J
(
θ
)
=
1
2
(
θ
T
X
T
−
y
i
T
)
(
X
θ
−
y
i
)
J(\theta) = \frac{1}{2}(\theta^TX^T – y_i^T)(X\theta – y_i)
J(θ)=21(θTXT−yiT)(Xθ−yi)
J
(
θ
)
=
1
2
(
θ
T
X
T
X
θ
−
θ
T
X
T
y
i
−
y
i
T
X
θ
+
y
T
y
i
)
J(\theta) = \frac{1}{2}(\theta^TX^TX\theta -\theta^TX^Ty_i – y_i^TX\theta + y^Ty_i)
J(θ)=21(θTXTXθ−θTXTyi−yiTXθ+yTyi)
进行求导(注意X、y是已知量,
θ
\theta
θ是未知数)
J
′
(
θ
)
=
1
2
(
θ
T
X
T
X
θ
−
θ
T
X
T
y
i
−
y
i
T
X
θ
+
y
T
y
i
)
′
J'(\theta) = \frac{1}{2}(\theta^TX^TX\theta -\theta^TX^Ty_i – y_i^TX\theta + y^Ty_i)’
J′(θ)=21(θTXTXθ−θTXTyi−yiTXθ+yTyi)′
J
′
(
θ
)
=
X
T
(
X
θ
−
y
)
J'(\theta) = X^T(X\theta – y)
J′(θ)=XT(Xθ−y)
令导数为0:
0
=
X
T
(
X
θ
−
y
)
0 = X^T(X\theta – y)
0=XT(Xθ−y)
X
T
X
θ
=
X
T
y
X^TX\theta = X^Ty
XTXθ=XTy
两边乘逆矩阵
(
X
T
X
)
−
1
(X^TX)^{-1}
(XTX)−1进行转化,
I
I
I 单位矩阵为1:
(
X
T
X
)
−
1
X
T
X
θ
=
(
X
T
X
)
−
1
X
T
y
(X^TX)^{-1}X^TX\theta = (X^TX)^{-1}X^Ty
(XTX)−1XTXθ=(XTX)−1XTy
I
θ
=
(
X
T
X
)
−
1
X
T
y
I\theta = (X^TX)^{-1}X^Ty
Iθ=(XTX)−1XTy
最小二乘法:
θ
=
(
X
T
X
)
−
1
X
T
y
\theta = (X^TX)^{-1}X^Ty
θ=(XTX)−1XTy
2.7 最小二乘法 和 均方误差
J
(
θ
)
=
1
2
∑
i
=
1
n
(
h
θ
(
x
i
)
−
y
i
)
2
J(\theta) = \frac{1}{2} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2
J(θ)=21∑i=1n(hθ(xi)−yi)2
MSE
=
1
n
∑
i
=
1
n
(
h
θ
(
x
i
)
−
y
i
)
2
\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (h_\theta(x_i) – y_i)^2
MSE=n1∑i=1n(hθ(xi)−yi)2
相似但用处不同:
J
(
θ
)
J(θ)
J(θ) : 模型训练的损失函数,通过梯度下降等优化算法最小化代价函数
MSE
\text{MSE}
MSE: 评估模型的性能,衡量模型的预测值与真实值之间的平均平方误差
本文来自网络,不代表协通编程立场,如若转载,请注明出处:https://www.net2asp.com/a099684f97.html
