数据标准化是 企业或组织对数据的定义、组织、监督和保护进行标准化的过程。数据标准化分为开发(D)、候选(C)、批准(A)驳回(R)、归档(X)几个过程。
数据标准化的分类有Min-max 标准化和z-score 标准化。
所以其公式为:
数据标准化=(原数据-最小值)/(最大值-最小值)
数据标准化计算公式
正态分布标准化的公式:Y=(X-μ)/σ~N(0,1)。证明因为X~N(μ,σ^2),所以P(x)=(2π)^(-1/2)*σ^(-1)*exp{[-(x-μ)^2]/(2σ^2)}。
注:F(y)为Y的分布函数,Fx(x)为X的分布函数。而F(y)=P(Y≤y)=P((X-μ)/σ≤y)=P(X≤σy+μ)=Fx(σy+μ)。 所以p(y)=F'(y)=F'x(σy+μ)*σ=P(σy+μ)*σ=[(2π)^(-1/2)]*e^[-(x^2)/2]。
从而,N(0,1)。正态分布标准化的意义是可以方便计算,是一种统计学概念。原本的正态分布图形有高矮胖瘦不同的形态,实际上是积分变换的必然结果,就好比是:1。 y=kx+b直线,它不一定过原点的,但是通过变换就可以了:大Y=y-b大X=kx===>大Y=大X。
2。y=a*b乘积,通过变换就可以变成加法运算:Ln(y)=Lna+Lnb。3。y=ax²+bx+c通过变换就可以变成标准形式:y=a(x+b/(2a))²+(c-b²/(4a))。
正态分布的标准化也只不过是“积分变换”而已,虽然高矮胖瘦不同的形态,但是变量的线性伸缩变换并不改变其量化特性,虽然标准化以后都变成期望是0,方差是1的标准分布了,但这种因变量自变量的依赖关系仍然存在,不用质变”