当前位置: > 财经>正文

细数最常用的几种数据分析方法:比较

2023-07-14 03:43:59 互联网 未知 财经

细数最常用的几种数据分析方法:比较

开始

首先数据处理中的最常用的统计方法无非是这四种:(1)比较; (2)预测;(3)分类; (4)相关.

方法预期结果比较掌握均值比较的统计处理方法预测掌握回归分析的使用方法分类区别分类与归类及其统计方法降维掌握相关性处理与数据压缩方法

因为每个方法对应的原理以及步骤处理方法网上都有详细说明,我就不过多赘述了;我只做下总结以及每种方法适应的场景,并且举一些简单的例子。

(1)比较

方差分析

主要用来分析==某一个或几个因素==对指标是否有==显著影响==。

方差分析中要研究的因素通常是分类型的自变量,指标则是数值型的因变量。对于每一个分类型自变量,按照分类都拥有不同的水平(代表不同的总体),通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量有无显著的影响。在方差分析中,我们通常把试验数据的总离差(或总方差)分解为各因素的离差和误差的离差,然后利用这些离差来构造检验统计量从而实现上述的检验。差分析分为单因素方差分析和多因素方差分析以及协方差分析。==单因素==(下面所有变量的值需要看当时的数据矩阵定,我只是随便设置个数)

data ex;do a=1 to 3;do i=1 to 5 ;input x @@;output;end;end;cards;数据;proc anova; class a;model x=a;means a/duncan cldiff;run;

==双因素==(一样)

data ex;do a=1 to 3;do b=1 to 5;input x @@;output;end;end;cards;数据;proc anova;class a b;model x=a b;means a b/duncan cldiff;run;

==协方差分析==这种不是在试验中控制某个因素,而是在试验后对该因素的影响进行估计,并对试验指标的值作出调整的方法称为统计控制,可以作为试验控制的辅助手段。以统计控制为目的,综合线性回归分析与方差分析所得到的统计分析方法,称为协方差分析,所需要统计控制的一个或多个因素,例如苹果树的长势,又如动物的初重等等称为协变量。

data ex; do a=1 to 3;do i=1 to 5;input x y @ @;output ;end;end;cards;数据 ; proc glm;class a;model y=x a/solution;lsmeans a/stderr pdiff;run;

==双因素协方差分析-不考虑交互作用==

input x y @ @;output; end; end;cards;数据;proc glm;class a b ;model y=x a b/solution;lsmeans a b/stderr pdiff;run;

==双因素协方差分析-考虑交互作用==

data ex; do a=1 to 4; do b=1 to 2;do i=1 to 2;input x y @@;output;end;end;end;cards;数据proc glm; class a b;model y=x a b a*b/solution;lsmeans a b/stderr pdiff;run;(2)预测

预测比较常用的是根据已有的数据推测未来一天或者某一阶段的数据除了利用神经网络建立模型之外(利用神经网络预测我在这文中有写到,但是主要还是利用工具箱调整神经元,没有自主建立,仅作参考),目前用的最多的还是==回归==;主要分为一元线性和非线性和多元线性;

==一元线性回归==

data ex;input x y @@;cards;数据;proc gplot;plot y*x;symbol i=rl v=dot;proc reg;model y=x/cli;run;

==一元非线性回归==

data ex;input x y @@;x1=1/x;lx=log(x);ly=log(y);cards;数据;proc gplot;plot y*x;symbol i=spline v=star;proc reg;model y=x1;proc reg;model ly=lx;proc reg;model ly=x;run;

其中可能涉及计算剩余平方和Q

data ex;input x y @@;x1=1/x;lx=log(x);ly=log(y);y1=输出的方程1;y2=输出的方程2;y3=输出的方程3;...cards;数据;proc print;var q1-q3;run;

==多元线性回归==

x1=log(k);x2=log(s);x3=log(l);y1=log(y);cards;数据;proc reg;model y1=x1 x2 x3 t ;run;y1=log(y);z1=log(x1);z2=log(x2);z3=log(x3);cards; 数据;proc reg;model y1=z1-z3 t/selection=stepwise;run;

其实生活中还有部分情况会利用到==最优尺度回归==对于多变量、多层次、多约束、不确定性高的非线性规划问题,适合用最优尺度回归模型。

比如分析航班飞行计划或者配车调度问题与天气或者温度是否有关系时;航班数据一般为数字;但是天气信息多为阴天、晴天、雷雨等;这时候为了达到近似线性的目的,反复迭代求解,可以利用最优尺度回归;前期数据量化可以利用高斯牛顿;

根据Gauss-newton求出来的系数再进行最优广度回归,因为用SPSS会很简单,网上应该也有教程,就不具体表述了,只给个结果图作为分析吧。(随便找了一张图,侵权删)

分析上图结果不考虑名义变量的情况下易见4变量与整体呈明显的负相关,而2因子与总人数呈明显的正相关。根据sig值本问为0.000

版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。