在深度学习和机器学习中,我们通常希望数据的分布为正态分布,因为在机器学习中,许多模型都是基于数据服从正态分布的假设(例如线性回归,它假设模型的残差服从均值为0方差为σ^2,标准化残差服从均数为0,方差为1 的正态分布)。因此,具有正态分布的数据会对模型的训练效果有着较为显著的提升。
2.BoxCox变换对于不符合正态分布的特征,除了对数变换等,最常用的就是BoxCox变换。
BoxCox将因变量Y进行以下变换后:
Y
(
λ
)
=
{
Y
λ
−
1
λ
,
λ
≠
0
ln
(
Y
)
,
λ
=
0
Y^{(\lambda)}=\begin{cases} & \frac{Y^{\lambda}-1}{\lambda},\lambda\neq 0\ & \ln(Y),\lambda =0 \end{cases}
Y(λ)={λYλ−1,λ=0ln(Y),λ=0
使因变量Y和自变量X的关系满足:
y
(
λ
)
=
X
β
+
e
,
e
∼
(
0
,
σ
2
I
n
)
y^{(\lambda)}=X\beta +e,e\sim (0,\sigma ^{2}I_{n})
y(λ)=Xβ+e,e∼(0,σ2In)
可以看到BoxCox是一个变换族,其变换的结果取决于
λ
\lambda
λ的选择。
λ
\lambda
λ的选择主要有极大似然法和贝叶斯方法。
待更新
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)