什么是虚假伪相关？

*发表于 2021-10-30 13:28:50* · 发表于 2021-10-30 13:28:50

在统计学中，虚假相关性（或虚假性）是指两个变量之间的联系，看起来是因果关系，但实际上不是。对于虚假相关，任何观察到的变量之间的依赖关系仅仅是偶然的，或者都与一些看不见的混杂因素有关。

了解虚假相关
虚假关系最初似乎表明一个变量直接影响另一个变量，但事实并非如此。这种误导性的相关性通常是由检查时不明显的第三个因素引起的，有时称为混杂因素。

当两个随机变量在图形上密切跟踪时，很容易怀疑一个变量的变化导致另一个变量的变化的相关性。抛开因果关系，这是另一个主题，这种观察可以使图表的读者相信变量 A 的运动与变量 B 的运动有关，反之亦然。

然而，更仔细的统计检查可能表明，对齐的运动是巧合的，或者是由影响两个变量的第三个因素引起的。这是一种虚假的相关性。使用小样本量或任意终点进行的研究特别容易受到虚假影响。

发现杂散
在研究结果中发现虚假关系的最明显方法是使用常识。仅仅因为两件事情发生并且看起来相互关联并不意味着没有其他因素在起作用。然而，可以肯定的是，研究方法是经过严格审查的。

在研究中，所有可能影响结果的变量都应包含在统计模型中，以控制它们对因变量的影响。

许多虚假的关系可以通过使用常识来识别。如果发现相关性，通常有不止一个变量在起作用，而且这些变量通常不是很明显。

虚假相关示例
有趣的相关性很容易找到，但许多结果是虚假的。三个例子是裙子长度理论、超级碗指标以及种族和大学完成率之间的建议相关性。

裙长理论：起源于1920年代的裙长理论认为，裙长与股市走向相关。如果裙子长度很长，则相关性是股市看跌。如果衬衫长度较短，则市场看涨。

超级碗指标: 一月下旬，经常有关于所谓的超级碗指标的喋喋不休，这表明美国橄榄球联盟球队的胜利可能意味着来年股市将下跌，而国足会议球队预示着市场的崛起。根据 OpenMarkets 的数据，自超级碗时代开始以来，该指标的准确率约为 74%，即 54 年中有 40 年是准确的。2 这是一个有趣的谈话片段，但可能不是严肃的财务顾问会向客户推荐的投资策略。

教育程度和种族：社会科学家专注于确定哪些变量会影响教育程度。根据政府研究，2019 年 25 至 29 岁的白人中有 56% 的人完成了大学学位，而同龄的黑人只有 36% 的人完成了大学学位。这意味着种族对大学完成率有因果关系。

然而，影响受教育程度的可能不是种族本身。结果也可能是由于社会中种族主义的影响，这可能是第三个“隐藏”变量。种族主义影响有色人种，使他们在教育和经济上处于劣势。例如，非白人社区的学校面临更大的挑战，获得的资金更少，非白人的父母收入较低，用于子女教育的资源较少，许多家庭生活在食物沙漠中，营养不良。种族主义，而不是种族，可能被视为影响教育程度的因果变量。

如何发现虚假相关性？
统计学家和其他分析数据的科学家必须时刻注意虚假关系。他们使用多种方法来识别它们，包括：

确保适当的代表性样本
获得足够的样本量
警惕任意端点
控制尽可能多的外部变量
使用零假设并检查强p 值

什么是相关性而非因果性的例子？
相关性的一个例子是，更多的睡眠会导致白天更好的表现。虽然有相关性，但不一定有因果关系。更多的睡眠可能不是一个人表现更好的原因；例如，他们可能正在使用一种新的软件工具来提高他们的生产力。要找到因果关系，必须有来自一项研究的事实证据，表明睡眠和表现之间存在因果关系。

什么是虚假回归？
虚假回归是一种统计模型，它显示了线性关系的误导性统计证据；换句话说，独立的非平稳变量之间存在虚假相关性。

什么是假因果关系？
错误的因果关系是指假设一件事由于它们之间的关系而导致另一件事。例如，我们可以假设 Harry 一直在努力训练以成为一名更快的跑步者，因为他的比赛时间有所改善。然而，现实可能是哈利的比赛时间有所改善，因为他拥有采用最新技术制造的新跑鞋。最初的假设是错误的因果关系。