当前位置: > 财经>正文

相关性、因果性之间的区别与联系,以及为什么说相关性不是因果性? 黄金与债券的相关性是什么意思啊

2023-07-20 18:17:10 互联网 未知 财经

相关性、因果性之间的区别与联系,以及为什么说相关性不是因果性?

1. 相关性是什么?0x1:相关性的定义

X和癌症有关,Y和中风有关,Z和心脏病发作有关。这三句话描述了三个相关性,告诉我们彼此的两个现象是相关的,却没说它们是如何关联在一起的。

两个变量相关的基本意思是,一个变量发生的变化与另一个变量发生的变化是随时间同步关联的。比如:

孩子们的身高和年龄相关,因为随着年龄的增长,孩子们的身高也会增长,他们会慢慢长大。

这些相关性满足时间协变的普遍性原则,包括:

概率分布典型性:相关性存在于不同的样本之间,一次测量多个不同年龄段的孩子,都存在显性的相关性时序稳定性:相关性存在于不同样本的不同时间段之间,在多个孩子的不同年龄段多次测量,都存在显性的相关性

与此相反的是,身高和出生月份之间却没有长期的相关性,也就是说,即使我们改变了出生月份,我们的身高也并不会发生有规律的变化。

年龄和身高呈现明显的正相关,而身高并没有随着出生年月的变化为变化,看起来就像一堆随机放置的点 

需要特别注意的是,对变量的相关性观测必须是时序同步的。举个例子,如果我们只有一组考试成绩的数据和一组学习时间的数据,而没有将相应的考试成绩和学习时间一一对应(同一时间的观测),那就无法确定二者之间是否具有相关性。这是因为我们只能看到个体在每一个变量上的变化,而没有看到这两个变量是如何共同发生变化的。也就是说,我们无法得知更长的学习时间是否对应更高的考试成绩。

相关性的主要用途注意就是预测。这意味着如果知道一个孩子的年龄,我们就能大致预测出他的身高,但如果我们只知道他们的出生月份,则无法预测出他的身高。

0x2:”变化“,相关性存在的必要但不充分条件

这个小节我们来讨论一个问题,先抛开是否存在因果、异或是强相关或弱相关,相关性存在的最基本条件是什么?这个问题关于到我们能够对很多表面上存在相关性的结果进行科学证伪。

来看一个例子,你想知道如何写申请才能获批某项资助,所以就去找所有申请到这项资助的朋友,询问他们自认为让他们成功获批的因素,从朋友们的反馈中你得出了下列这些分析结果,

所有人在申请中都使用了 Times New Roman 字体有一半人说每页至少有一个报表有三分之一的人在截止日期的前一天提交申请

这是否意味着在这些因素和资助成功获批之间存在相关性呢?答案是否定的!

回到相关性的定义可以看到,相关性要求两个变量是时序协变的。但在上面例子可以看到,虽然条件在发生变化,但是结果没有发生变化(结果只有一个固定值),所以我们无法确定是否还有其他因素和结果有关。

相关性存在的必要但不充分条件是:两个变量都要发生动态变化,且同时两者之间存在一定程度的协变趋势。如果两个变量没有共同发生改变,我们就无法找到它们之间的相关性。

 

2. 相关性的测量与解释0x1:相关性的测量指标1、皮尔森相关系数 

皮尔森相关系数是指两个变量(协方差、方差)如何通过各自的变化而发生共同的变化。皮尔森相关系数假定两个变量之间是线性关系,即一个变量增大,另一个变量也会以相同的比例增大。

两个变量  与  之间的皮尔逊相关系数计算公式为:

即两个变量的协方差与两个变量的标准差之积的比值。

比如我们调查了一些学生在期末考试前喝了多少杯咖啡,然后又记录了他们的期末考试成绩。如下图所示,

两个变量之间的相关性非常高,相关系数接近1,所以图上的黑点似乎紧紧地聚在一条无形的直线两侧。

如果将两个变量之间的关系都变得更弱一些,即每次喝同样杯数的咖啡,但考试成绩的变化更大,那么这些黑点就会更为分散,变量之间的相关性也会更低。

变量之间这种不断增加的变化的极限就是变成两个完全不相关的变量,即相关系数为零,如下图所示,

在这种情况下,我们将无法根据饮用的咖啡数量来对考试成绩做出任何预测。

2、非线性相关系数度量

现实世界中并不一定都是线性变量,可能还存在更为复杂的非线性变量,因此同样也存在更为复杂的非线性相关关系。

例如:

如果不喝咖啡会让人精神不振,并且会降低考试成绩但是喝咖啡太多(超过一个临界阈值)又会让人神经过敏,并且影响考试发挥

我们将收集到的一些数据画出来可能就是下图的曲线,

在上图中,人们和咖啡的杯数从0增加到5,考试成绩是持续上升的,然后在5到10杯之间,考试成绩随着和咖啡杯数的增加而慢慢下降。

我们会发现在这个例子中,皮尔森相关系数刚好为零,但是这些数据却呈现出了明显的规律性。

同样的现象在生物医学(缺乏维生素或维生素服用剂量过多都可能导致健康问题)和金融(将税率和收入联系在一起的拉弗曲线)等应用领域都存在。

0x2:对相关性的解释1、对相关性的过高解释1)认知偏差

我们之所以会找到一些错误的相关性,除了数学方面的原因之外,另一个比较重要的原因就是人们在观察数据可能会发现一些虚假的规律,有些认知偏差会让我们在无关的因素之间推断出联系。

比如前面说的证实性偏差会使人们去寻找证据来证实他们的观点。

如果你认为一种药物会引起某种副作用,那你可能会去网上搜索其他吃了这个药并且出现了副作用的病人。但是,这种做法意味着你是在忽略所有不能证实你的假设的数据,而不是寻找那些有可能让你重新评估你的观点的证据。

2)解释性偏差

人们除了在寻找和使用证据时存在偏差,在解释证据时也可能存在偏差。

如果一种新药正在接受临床测试,而一名医生已经知道有病人正在服用这种药,并且认为这个药对病人是有帮助的,那么在这种情况下,他就有可能会寻找迹象来证明这个 药物是有效的。由于病人的很多指标都是主观的(比如运动强度和疲劳程度等),这就有可能导致医生对这些指标的估算存在偏差,并导致医生推理出一个并不存在的相关性。

3)错觉相关 - 证实性偏差的一种特殊形式

”错觉相关“指的是看到一个实际上并不存在的相关性。关节炎症状和天气之间可能存在一定的联系,这种联系广为流传以至于人们常常把它当成事实。

然而,当研究人员综合考量了病人自述、临床医生的评价和一些客观的测量数据,试图客观地研究这一相关性时,却发现这两者之间并没有任何相关性。事实上,真正的罪魁祸首可能是空气湿度。

这种偏差和抽样偏差很相似,我们之所以会错误地认定某种相关性,是因为我们只关注了一部分数据。如果你期望变量之间存在负相关性,那么你就可能只关注整个数据集中那些能够证实这一观点的一小部分数据。这就是它是一种证实性偏差的原因。

2、对相关性的过低忽视 1)重视非线性相关性

如果孩子们的体重总是随着年龄的增长而增长,这里显然两者之间是存在相关性的,但是体重是以指数级增长的(随着年龄的增长,体重增长得越来越多),那么皮尔森相关系数会比想象的要低,因为皮尔森系数适用的是线性关系。对待观测对象间存在的非线性相关性要十分关注。

2)重视样本数据的概率分布典型性 - 抽样偏差

另外一个主要原因是,我们所用的数据可能不具代表性,不能反映数据的基本概率分布情况。

例如,如果只使用医院的入院数据和急诊科数据来研究流感致死情况,那我们得到的流感死亡率就会比社会整体人群的实际流感死亡率高得多。这是因为病人一般是因为症状比别人严重或者还有其他疾病才会去医院,而且去医院的流感病人可能更容易死于流感。

所以我们看到的并不是流感导致的所有结果,而是流感病毒在那些有其他疾病或者流感症状十分严重的病人身上导致的结果。换句话说,这是一个机遇有偏样本的有偏估计。

为了更好阐述这个问题,我们假设有两个变量:SAT总成绩和学习时间。

然而,由于数据收集的困难(这在实际工程实践中很常见)我们并没有所有SAT考生的成绩数据,只有那些数学和语文总分超过1400分(下图灰色部分)的考生的成绩数据。在这个限定范围的数据中,成绩好的考生包括那些天生擅长考试的学生(不学习也能考得好)和后天刻苦学习的考生。

如果仅使用灰色区域的考生的成绩数据,我们是无法找到这两个变量(SAT总成绩、学习时间)之间的相关性的。

但如果我们将统计的范围扩大,使用所有考生的考试成绩数据,就会发现这两个变量之间存在很强的相关性。

这就是所谓的【样本概率分布典型性问题】,在工程中,我们常常陷入的一个误区有如下几个:

样本数据的获取成本很大,数据分析师往往很难获取到足够的样本正、负例样本不平衡,正例样本数量较少,很多时候强依赖人工标注,在安防领域这个问题尤其突出样本代表性不足,收集到的样本往往只代表了一小部分群体,没有覆盖到整个待观测的总群体

这种抽样偏差十分常见,例如那些调查访客政治观点的网站。网站的访问并不是从人群中随机抽取的调查对象,而是本身就比较关注政治问题的激进访客。

那些调查极端政治偏见的网站的访客,情况就更明显了,这些访客的政治观点与一般人的政治观点之间的偏差就更大了。 

0x3:多重测试与P值 -- 相关性发现与测量中常见的误区

我们让以为参与者进入功能性磁共振成像扫描仪,然后给这位参与者看各种社会场景的图片,并让其判断每一张图片中人的情感状态。

通过功能性磁共振成像扫描仪,研究人员能够测量参与者大脑中各个区域的血液流量,并且经常会用这一测量结果作为神经活动指标,以此来判断不同种类的任务会用到大脑中的哪些区域。最后扫描出来的彩色图像可以向我们展示大脑中哪些区域的血液流量明显增加了,这就是一些论文中谈到的大脑中有些区域在特定的刺激下“亮了起来”的含义。找到大脑中那些被激活的区域,可以让我们深入了解大脑的各个部分是如何连接在一起的。

在这项研究中,我们发现参与者大脑中有好几个区域的血液流量都发生了十分显著的变化,即P=0.01的统计显著性,那么,这个区域是否和人们想象他人情感的活动有关呢?

这里存在一个重大的统计方法的误区,那就是多重测试问题!

一次进行多个测试是会出问题的,在磁共振成像研究中,人们考察了大脑中好几千个很小的区域,所以其中有一个区域呈现出明显的血液流动现象也并不奇怪,因为有很多原因都可能导致这一现象。这种问题被称为多重假设检验,它指的是同时检验大量假设。

在多重假设检验中,可能会单纯因为巧合而出现一些似乎具有显著相关性的结果。正确的方法是,每一次测试都需要控制变量。

鉴别因果性最好和最科学的方法就是控制变量与盲测,例如美国FDD药品测试的随机双盲测试。

 

3. 相关性的用途

相关性最主要的用途就是预测,这也是当下IT技术智能化转型中被应用地最广泛的一种技术之一。

关于基于相关性的预测,目前学界也存在不少争议,很多研究者认为相关性并不可靠,很多相关性的得出过程伴随着很多抽样偏差与解释偏差,而且基于相关性的预测模型无法应对未来可能出现的黑天鹅事件。

笔者对这个问题也有过一些思考,这里瑾发表一些个人的浅见:首先,我觉得我们都要认清现实,当下的人工智能还远远不是硅基生命体的阶段,人工智能或者叫机器学习模型的效果很大程度还是取决于数据,对于数据来说,算法工程师和数据分析师最主要的工作就是从数据中提取规律,这里所谓的规律大部分时候指的就是【统计相关性】。基于数据的有监督训练得到的模型,其本质上就是一个统计相关性模型,从这个角度来说,相关性是可以被用于预测任务的,当然前提是我们得出的相关性要具有显著性。

0x1:相关性的医学用途1、西医追求因果性

现代科学追求因果性,找到现象后面的真正原因,比如

“苹果为什么要掉下来”“心脏瓣膜的作用何在”

科学语言满足逻辑,概念的内涵清晰不容含混,结论要经过严格推理,以理性地解决“为什么”的问题。

这种追求生动体现在医学上,生理病理实验都要搞清楚分子和细胞层面的变化,以设计相应的药物来矫正,知道药物在体内是如何发挥作用的,作用的靶点是什么,会影响哪些受体等等,这些都是对因果性的追求。

但是在现代西医的早期,认识几乎都来源于相关性,

种牛痘能预防天花奎宁能治疗疟疾福尔马林能消毒阿司匹林的疗效

这些都是相关性认识,但这不是稳定态,西医要求替之以因果性。生命科学不断深入,到一定程度,就变成对分子之间关系的探索,或搞懂分子和细胞之间的相互作用,那是化学反应,更可归结到物理现象,因而可做到因果性。

但是科学的进步总是需要一个过程的,很多生理和病理现象还无法认识,很多结论只能由统计得出,这是相关性,比如

论证饮食和癌症的关系疾病表现和地域的关系

循证医学也有很多相关性的成分。这只是医学欠发达阶段的无奈之举,骨子里,西医有对因果性的渴望。并非西医一定追求机理,基于高尚的情怀而追求因果性,而是出于实用的考量。人们发现相关性并不保险,西药有效,能显著改变疾病进程,这是优点也是缺点,强烈的作用要求严格的安全考量,所以努力做到因果性,各期药物试验有浓浓的相关性,近几十年来,监管力量在加大,但毒副作用还是层出不穷,逼着人们搞懂因果性,尽量抛弃相关性,以最大限度地缩减麻烦。

2、相关性更可取

因果性要求对生命的深刻理解,难度很大。要追求因果性,就得从原子分子层面解决问题,就遭遇了生命复杂系统,工作很难展开,下层的因果性知识需要在整体场景展现出来,在诸元的影响下,真正的因果性被污染了。

相反,相关性思路更可取,只要有人探索获得了解决方法,其他人模仿就好,整个过程都不涉及机理。

我们毫不否认生命的科学性,坚信任何生命现象都能基于物质基础找到解释,发现因果关系,但这是未来的远景,在当下,因果性只能局部体现,在整体生命层面尚无能为力。这种考量下,用相关性这种“世俗的”方法对待医学,是一份非常务实的做法。

人类有某种相似内质,这是相关性的理论基础。这种思路相对安全,生命是缓慢变化的,前人表现的现象,在后人身上也会相似地表达。生命是“平滑的”,没有现象上的断崖,癌症在看似突然发生,那只是有限能力下的观察,它一定是有原因的。相关性获得的结论稳定、可控、可预测,掌握足够多数据,就可消除各种随机性。

0x2:相关性的市场预测用途

很多零售商都在努力寻找能够预测人们购买行为的指标,他们之所以这样做就是依据相关性可预测未来行为的原理。

有人宣称,塔吉特公司在一名青少年的家人还不知情的情况下就已经”知道“她怀孕了。这件事让塔吉特公司上了新闻头条。

当然,塔吉特公司并不是真正知道哪个女孩怀孕了,而是利用他们从其他顾客身上收集到的海量数据(以及从其他来源购买到的数据)来了解哪些因素与怀孕的各个阶段具有相关性。

比如说,经过足够的观察,塔吉特公司发现单独购买乳液或棉球并不能说明什么,但是那些怀孕的女士通常会同时购买这两样商品以及一些维生素补充剂。

在有了足够的采购模式以及预产期(可以从婴儿登记处获得或者根据顾客购买早孕测试纸的日期估算出来)数据后,塔吉特公司就能判断出一名顾客怀孕的可能性有多大,并且能够估算出她已经怀孕多久了。

Amazon、Netflix、LinkeIn这类网站就是利用相关性来为用户推荐各种互补性商品、用户可能会喜欢的电影和可能会用到的

版权声明: 本站仅提供信息存储空间服务,旨在传递更多信息,不拥有所有权,不承担相关法律责任,不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请发送邮件至 举报,一经查实,本站将立刻删除。