相关性与影响因素分析
原标题:相关性与影响因素分析
什么是相关性“万物皆有联”,是大数据一个最重要的核心思维。
所谓联,这里指的就是事物之间的相互影响、相互制约、相互印证的关系。而事物这种相互影响、相互关联的关系,就叫做相关关系,简称相关性。
世界上的所有事物,都会受到其它事物的影响。
HR经常会问:影响员工离职的关键原因是什么?是工资还是发展空间?
销售人员会问:哪些要素会促使客户购买某产品?是价格还是质量?
营销人员会问:影响客户流失的关键因素有哪些?是竞争还是服务等?
产品设计人员:影响汽车产品受欢迎的关键功能有哪些?价格、还是动力等?
……
所有的这些商业问题,转化为数据问题,不外乎就是评估一个因素与另一个因素之间的相互影响或相互关联的关系。而分析这种事物之间关联性的方法,就是相关性分析方法。
在过去,主要是要寻找影响事物的因果关系,所以过去也叫影响因素分析。但是,从统计学方法来说,因果关系一定会有统计显著,但统计显著并不一定就是因果关系,所以准确地说,影响因素分析应该改为相关性分析。
所以,在不引起混淆的情况下,我们也会用影响因素分析。
相关性种类客观事物之间的相关性,大致可归纳为两大类:一类是函数关系,一类是统计关系。
函数关系,就是两个变量的取值存在一个函数来唯一描述。比如,销售额与销售量之间的关系,可用函数y=px(y表示销售额,p表示单价,x表示销售量)来表示。所以,销售量和销售额存在函数关系。这一类关系,不是我们关注的重点。
统计关系,指的是两事物之间的非一一对应关系,即当变量x取一定值时,另一个变量y虽然不唯一确定,但按某种规律在一定的范围内发生变化。比如,子女身高与父母身高、广告费用与销售额的关系,是无法用一个函数关系唯一确定其取值的,但这些变量之间确实存在一定的关系。大多数情况下,父母身高越高,子女的身高也就越高;广告费用花得越多,其销售额也相对越多。这种关系,就叫做统计关系。
详细见下面的图形。
展开全文 相关性描述方式描述两个变量是否有相关性,常见的方式有:相关图(典型的如散点图和列联表等等)、相关系数、统计显著性。
如果用可视化的方式来呈现各种相关性,常见有如下散点图。
至于相关系数和统计显著性,请参后续章节。
相关性方法种类对于不同的因素类型,采用的相关性分析方法也不相同。
下面简单总结一下所选用的相关性分析方法。
解释变量类型 被解释变量类型 方法 作用 数值型变量 数值型变量 相关分析 衡量两个变量的相关程度 类别型变量 数值型变量 方差分析 评估因素对目标变量是否有显著影响 类别型变量 类别型变量 列联分析 评估两个因素是否相互独立
举一个简单的例子:
某电信运营商,面临增量不增收的困境,想弄明白哪些因素有可能会影响客户的消费水平(也就是说,哪些因素与费用有相关性),以及哪些因素与客户流失有相关性,于是收集了如下的表格,请分析并给出结论。
从方法的适用场景,可知:
1)如果要评估收入对于基本费用的相关性,则可用相关性分析。
2)如果要评估婚姻状况对于基本费用的相关性,则可用方差分析。
3)如果要评估教育水平对于客户流失的相关性,则可用列联分析。
其余可采用类似的方法。
具体的方法介绍和使用,请参考后续文章。
版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。