四十七.模型和正态分布_python

1.为什么数据要服从正态分布

在深度学习和机器学习中，我们通常希望数据的分布为正态分布，因为在机器学习中，许多模型都是基于数据服从正态分布的假设（例如线性回归，它假设模型的残差服从均值为0方差为σ^2，标准化残差服从均数为0，方差为1 的正态分布）。因此，具有正态分布的数据会对模型的训练效果有着较为显著的提升。

2.BoxCox变换

对于不符合正态分布的特征，除了对数变换等，最常用的就是BoxCox变换。
BoxCox将因变量Y进行以下变换后：
Y ( λ ) = { Y λ − 1 λ , λ ≠ 0 ln ⁡ ( Y ) , λ = 0 Y^{(\lambda)}=\begin{cases} & \frac{Y^{\lambda}-1}{\lambda},\lambda\neq 0\ & \ln(Y),\lambda =0 \end{cases} Y(λ)={λYλ−1,λ=0ln(Y),λ=0
使因变量Y和自变量X的关系满足：
y ( λ ) = X β + e , e ∼ ( 0 , σ 2 I n ) y^{(\lambda)}=X\beta +e,e\sim (0,\sigma ^{2}I_{n}) y(λ)=Xβ+e,e∼(0,σ2In)
可以看到BoxCox是一个变换族，其变换的结果取决于 λ \lambda λ的选择。 λ \lambda λ的选择主要有极大似然法和贝叶斯方法。

3.sklearn-BoxCox

待更新

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/langs/719159.html

四十七.模型和正态分布

发表评论

评论列表（0条）