四十七.模型和正态分布

四十七.模型和正态分布,第1张

1.为什么数据要服从正态分布

在深度学习和机器学习中,我们通常希望数据的分布为正态分布,因为在机器学习中,许多模型都是基于数据服从正态分布的假设(例如线性回归,它假设模型的残差服从均值为0方差为σ^2,标准化残差服从均数为0,方差为1 的正态分布)。因此,具有正态分布的数据会对模型的训练效果有着较为显著的提升。

2.BoxCox变换

对于不符合正态分布的特征,除了对数变换等,最常用的就是BoxCox变换。
BoxCox将因变量Y进行以下变换后:
Y ( λ ) = { Y λ − 1 λ , λ ≠ 0 ln ⁡ ( Y ) , λ = 0 Y^{(\lambda)}=\begin{cases} & \frac{Y^{\lambda}-1}{\lambda},\lambda\neq 0\ & \ln(Y),\lambda =0 \end{cases} Y(λ)={λYλ1,λ=0ln(Y),λ=0
使因变量Y和自变量X的关系满足:
y ( λ ) = X β + e , e ∼ ( 0 , σ 2 I n ) y^{(\lambda)}=X\beta +e,e\sim (0,\sigma ^{2}I_{n}) y(λ)=Xβ+e,e(0,σ2In)
可以看到BoxCox是一个变换族,其变换的结果取决于 λ \lambda λ的选择。 λ \lambda λ的选择主要有极大似然法和贝叶斯方法。

3.sklearn-BoxCox

待更新

欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/langs/719159.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-04-25
下一篇 2022-04-25

发表评论

登录后才能评论

评论列表(0条)

保存