R语言概率论协方差计算问题_安全

协方差公式为：

这也是R语言中使用的计算公式，我把它叫做“样本协方差”。

样本数太少，只有3，自由度是2，这种方差分析或协方差分析本来就没什么意义。

cov(x,y)=E(XY)-E(X)E(Y)，这种使用数学期望（我把它叫做”总体的数学期望“或总体均值）的计算公式我把它叫做“总体协方差”。

统计学中，总体和样本是个不同的概念，总体方差、总体标准差与样本方差、样本标准差也是不同的概念，计算方法不同，”总体“的自由度是 n，”样本“的自由度计算为 n-1

用r语言求正态分布的标准差：产生100个均值为0标准差为1的正态分布随机数：rnorm（100，mean=0，sd=1）指数分布数dnorm（x，mean=5，sd=1，log=TRUE）。

正态分布的标准差正态分布N～（μ，duδ^2），方差D（x）=δ^2，E（x）=μ。服从标准正态分布，通过查标准正态分布表就可以直接计算出原正态分布的概率值。μ维随机向量具有类似的概率规律时，随机向量遵从多维正态分布。

标准正态分布

又称为u分布，是以0为均数、以1为标准差的正态分布，记为N（0，1）。标准正态分布曲线下面积分布规律是：在-196～+196范围内曲线下的面积等于09500，在-258～+258范围内曲线下面积为09900。统计学家还制定了一张统计用表（自由度为∞时），借助该表就可以估计出某些特殊u1和u2值范围内的曲线下面积。

对实验数据检验方差相等的正态分布总体均值是否相等。判断各因素对试验指标影响是否显著。根据影响实验指标条件的个数可以区分为：单因素方差分析，双因素方差分析，多因素方差分析
boxplot（目标变量~变量，data=数据框）

箱子中的黑线是中值，箱体是下边缘为1/4分位数，上边缘为3/4分位数。上下两侧为最小值和最大值。

第一列为均值差异，第二列为置信区间，最后为P值（校正后）

上方存在相同字母的组间差异不显著

设正态分布概率密度函数是f(x)=[1/(√2π)t]e^[-(x-u)^2/2(t^2)]

其实就是均值是u，方差是t^2。

于是：∫e^[-(x-u)^2/2(t^2)]dx=(√2π)t（）

积分区域是从负无穷到正无穷，下面出现的积分也都是这个区域。

（1）求均值

对（）式两边对u求导：

∫{e^[-(x-u)^2/2(t^2)][2(u-x)/2(t^2)]dx=0

约去常数，再两边同乘以1/(√2π)t得：

∫[1/(√2π)t]e^[-(x-u)^2/2(t^2)](u-x)dx=0

把(u-x)拆开，再移项：

∫x[1/(√2π)t]e^[-(x-u)^2/2(t^2)]dx=u∫[1/(√2π)t]e^[-(x-u)^2/2(t^2)]dx

也就是

∫xf(x)dx=u1=u

这样就正好凑出了均值的定义式，证明了均值就是u。

(2)方差

过程和求均值是差不多的，我就稍微略写一点了。

对()式两边对t求导：

∫[(x-u)^2/t^3]e^[-(x-u)^2/2(t^2)]dx=√2π

移项：

∫[(x-u)^2][1/(√2π)t]e^[-(x-u)^2/2(t^2)]dx=t^2

也就是

∫(x-u)^2f(x)dx=t^2

正好凑出了方差的定义式，从而结论得证。

扩展资料：

若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布，记为N(μ，σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

在统计描述中，方差用来计算每一个变量（观察值）与总体均数之间的差异。为避免出现离均差总和为零，离均差平方和受样本含量的影响，统计学采用平均离均差平方和来描述变量的变异程度。

由于一般的正态总体其图像不一定关于y轴对称，对于任一正态总体，其取值小于x的概率。只要会用它求正态总体在某个特定区间的概率即可。

为了便于描述和应用，常将正态变量作数据转换。将一般正态分布转化成标准正态分布。

对于连续型随机变量X，若其定义域为（a，b），概率密度函数为f（x），连续型随机变量X方差计算公式：D（X）=（x-μ）^2 f（x） dx

方差刻画了随机变量的取值对于其数学期望的离散程度。（标准差、方差越大，离散程度越大）

若X的取值比较集中，则方差D（X）较小，若X的取值比较分散，则方差D（X）较大。

因此，D（X）是刻画X取值分散程度的一个量，它是衡量取值分散程度的一个尺度。

参考资料来源：百度百科--方差

参考资料来源：百度百科--正态分布

加载程序包：library(mvtnorm)
X<-rmvnorm(n,rep(0,p),diag(p)),
参数分别为生成服从正态分布随机向量的样本量，均值，协方差阵

如果两个样本具有方差齐性，那么做独立样本t检验时，直接套用t检验的公式，计算t值，，查表的自由度为n1+n2-2，然后用函数pt( t value, n1+n2-2)给出p值，小于005即为显著。

如果方差不齐，需要计算校正后的自由度，

首先求均值和方差的极大似然估计：
mu = mean(x)
variance = sd(x)^2(n-1)/n
创建数据集
mu_boot = c()
建立循环
for (i in 1:1000){
y = rnorm(n,mu,sqrt(variance))
mu_boot[i] = mean(y)
variance_boot[i] = sd(y)^2(n-1)/n
}
求置信区间
quantile(mu_boot,c(0025,0975))
quantile(variance_boot,c(0025,0975))

忽略环境因素（风，土壤等）对树木倾斜程度的影响，可认为4种树倾斜情况的差异来自于树木本身；
若认为样本来自同分布（norm），同/不同的均值/方差，可采用chisq检验，t检验，秩和检验等假设检验，得到不同树木对环境影响的抵御程度；
大致看了下，臭冷杉抗性最好，杨树最差，估计难以接受臭冷杉的抗性好于松鼠和柳树的假设；自己试试吧；
这么个意思？

欢迎分享，转载请注明来源：内存溢出

原文地址: https://www.outofmemory.cn/yw/13324393.html

R语言概率论协方差计算问题

发表评论

评论列表（0条）

R语言 概率论 协方差计算问题

发表评论

评论列表（0条）

R语言概率论协方差计算问题