如何将非正态数据转为正态分布数据_安全

设非标准正态分布X~N(μ,σ^2)，则关于X的一个一次函数 (X-μ)/σ ，就一定是服从标准正态分布N(0，1)。例如：一个量X，是非标准正态分布，期望是10，方差是5^2（即X~N(10,5^2)）；那么对于X的线性函数Y=(X-10)/5，Y就是服从标准正态分布的Y~N(0,1)。

标准正态分布曲线下面积分布规律是：在-196～+196范围内曲线下的面积等于09500，在-258～+258范围内曲线下面积为09900。统计学家还制定了一张统计用表（自由度为∞时），借助该表就可以估计出某些特殊u1和u2值范围内的曲线下面积。

扩展资料：

标准正态分布的特点：

1、密度函数关于平均值对称

2、平均值与它的众数（statistical mode）以及中位数（median）同一数值。

3、函数曲线下68268949%的面积在平均数左右的一个标准差范围内。

4、函数曲线的反曲点（inflection point）为离平均数一个标准差距离的位置。

在数据挖掘中，海量的原始数据中存在大量不完整（有缺失值）、不一致、有异常的数据，会严重影响到数据挖掘建模的执行效果，甚至会导致挖掘结果的偏差，进而数据清洗就变得尤为重要。在数据清洗完成后接着甚至同时进行数据集成、变换、规约等一系列的处理，而整个过程称之为 数据预处理 。在整个数据挖掘过程中，数据预处理工作大致占据整个过程的 60% 。
一般来说，数据预处理的主要包括如下内容：数据清洗、数据集成、数据变换、数据规约。
接下来的内容，我们也是从这几方面阐述。

常见的缺失值处理方法：删除法、替换法、插补法等
（1）、删除法：最简单的缺失值处理方法。从不同角度进行数据处理划分：

<code>
缺失值的处理
inputfile$date=asnumeric(inputfile$date)#将日期转换成数值型变量
sub=which(isna(inputfile$sales))#识别缺失值所在行数
inputfile1=inputfile[-sub,]#将数据集分成完整数据和缺失数据两部分
inputfile2=inputfile[sub,]
行删除法处理缺失，结果转存
result1=inputfile1
</code>
（2）、替换法
一般根据属性将变量分：数值型和非数值型

在数据挖掘过程中，可能会存在数据分布在不同的数据源中，而这个时候需要将多个数据源合并存放在一个一致的数据存储（如数据仓库），整个过程称之为 数据集成 。

数据仓库：
关于数据仓库构思
漫谈数据仓库之维度建模
漫谈数据仓库之拉链表（原理、设计以及在Hive中的实现）

在R中，通过将存储在两个数据框中的数据以关键字为依据，以行为单位做列向合并，直接通过merge()函数完成。
merge(数据框1，数据框2，by="关键字")，而合并后的新数据自动按照关键字取值大小升序排列。不过在数据集成过程中存在表达形式不一样，导致不能直接完成匹配，就需要我们进行加以转换、提炼、集成等 *** 作。具体从如下几方面：
（1）、实体识别
从不同数据源识别出现实世界的实体，来完成统一不同源的数据矛盾之处。

实体识别承担着检测和解决这些冲突的任务

（2）、冗余属性识别

数据变换主要对数据进行规范化处理、连续变量的离散化以及属性属性的构造，将数据转换成“适当的”形式，来满足挖掘任务及算法的需要。
（1）、简单函数变换
对原始数据进行某些数学函数变换，常见平方、开方、取对数、差分运算等等
主要来完成不具有正态分布变换服从正态分布；非平稳序列变为平稳序列等等
（2）、数据规范化
为了清除指标之间的量纲和取值范围差异的影响，需要进行标准化处理，将数据按照比例进行缩放，使之落入一个特定区域，便于进行综合分析。
常见方法如下：

<code>
读取数据
data=readcsv('/data/normalization_datacsv',he=F)
最小-最大规范化
b1=(data[,1]-min(data[,1]))/(max(data[,1])-min(data[,1]))
b2=(data[,2]-min(data[,2]))/(max(data[,2])-min(data[,2]))
b3=(data[,3]-min(data[,3]))/(max(data[,3])-min(data[,3]))
b4=(data[,4]-min(data[,4]))/(max(data[,4])-min(data[,4]))
data_scatter=cbind(b1,b2,b3,b4)
零-均值规范化
data_zscore=scale(data)
小数定标规范化
i1=ceiling(log(max(abs(data[,1])),10))#小数定标的指数
c1=data[,1]/10^i1
i2=ceiling(log(max(abs(data[,2])),10))
c2=data[,2]/10^i2
i3=ceiling(log(max(abs(data[,3])),10))
c3=data[,3]/10^i3
i4=ceiling(log(max(abs(data[,4])),10))
c4=data[,4]/10^i4
data_dot=cbind(c1,c2,c3,c4)
</code>

（3）、连续属性离散化
在数据的取值范围内设定若干个离散的划分点，将取值范围划分为不同的离散化的区间，最后使用不同的符号或数值代表落在不同区间的数据值。
常见离散方法：

（4）、属性构造
利用已有的属性构造出新的属性
（5）、小波变换（本次不进行阐述）

数据规约在大数据集上产生更小的且保持原数据完整性的新数据集，提升在数据集合上进行分析和挖掘的效率。
意义如下：

面板数据非平稳差分步骤如下：
1在EXCEL中整理好数据格式，前两列分别为id和year，用Eviews72打开就会自动识别成paneldata对象，而不是pool对象。
2非均衡面板数据可以建立。可以在截面和时期列表中选择None、Fixed、Random，用来选择单因素（或双因素）固定效应、随机效应变截距模型；同时可以选择GMM/GLS/SUR等估计方法。

欢迎分享，转载请注明来源：内存溢出

原文地址: https://www.outofmemory.cn/yw/13234806.html

如何将非正态数据转为正态分布数据

发表评论

评论列表（0条）