什么是样本选择偏差？

*发表于 2021-10-30 13:44:44* · 发表于 2021-10-30 13:44:44

样本选择偏差是由于选择非随机数据进行统计分析而引起的一种偏差。偏差的存在是由于样本选择过程中的缺陷，其中由于特定属性而系统地排除了数据的子集。子集的排除会影响检验的统计显着性，并且会导致统计模型参数的估计有偏差。

关键要点
研究中的样本选择偏差发生在选择非随机数据进行统计分析时。
由于样本选择过程中的缺陷，一部分数据被排除在研究之外，从而影响或否定了测试的统计显着性。
有几种类型的样本选择偏差，包括预筛选偏差、自我选择偏差、排除偏差和观察者偏差。
幸存者偏差会导致错误的结论，因为它只关注那些在选择过程中已经通过某个特定点的元素、人或事物，而忽略了那些没有通过的元素、人或事物。
纠正样本选择偏差的一种方法是为错误表示的子组分配权重，以便在统计上纠正偏差。
了解样本选择偏差
幸存者偏差是一种常见的样本选择偏差。这种类型的偏见忽略了那些在选择过程中没有通过某个点的受试者，而只关注“幸存下来”的受试者。这可能会导致错误的结论。

例如，在对大量股票进行回溯测试时，寻找具有整个样本期数据的证券可能会很方便。如果我们要根据 15 年的股票数据测试该策略，我们可能倾向于寻找在整个 15 年期间具有完整信息的股票。

然而，剔除停止交易或不久离开市场的股票会在我们的数据样本中输入偏差。由于我们只包括持续了 15 年的股票，我们的最终结果将是有缺陷的，因为这些股票的表现足以在市场中存活下来。

样本选择偏差的类型
除了生存偏差之外，还有其他几种类型的样本选择偏差。

广告或预审偏见
当参与者在研究中预先筛选的方式引入偏见时，就会发生这种情况。例如，研究人员用来为参与者做广告的语言本身就可以通过阻止或鼓励某些人自愿参与来在研究中引入偏见。

自我选择偏差
自我选择偏差——也称为志愿者反应偏差——发生在研究组织者允许参与者自我选择或自愿参与时。研究组织者放弃对决定自愿参加的人的控制。这可能会导致具有特定特征或观点的人自愿参与一项研究，从而扭曲结果。

排除和覆盖不足的偏见
当人群中的特定成员被排除在参与研究之外时，就会发生排除偏倚。当研究组织者创建的研究不能充分代表某些人群时，就会出现覆盖不足偏差。

样本选择偏差示例
对冲基金业绩指数是受幸存者偏差影响的样本选择偏差的一个例子。由于无法生存的对冲基金不再向指数聚合器报告其业绩，因此产生的指数自然会倾向于保留的基金和策略，因此“生存”。这也可能是流行的共同基金报告服务的问题。分析师可以进行调整以考虑这些偏见，但可能会在此过程中引入新的偏见。

当研究人员向研究参与者投射他们自己的信念或期望，从而扭曲研究结果时，就会发生观察者偏见。这有时与挑选樱桃一起发生，此时研究人员主要关注支持他们假设的统计数据。
特别注意事项
研究人员和研究组织者有责任确保他们的研究结果准确、相关，并且不包含任何可能导致有缺陷结论的偏见。一种方法是基于支持随机样本选择过程的方法来构建研究。

虽然从理论上讲，这似乎很简单，但现实情况是，研究人员需要保持警惕，努力防止样本选择偏差。此外，研究组织者可能会面临超出其控制范围的限制，这使得实现随机样本具有挑战性。例如，项目可能缺乏参与者或资金不足。

为确保所研究的样本是随机的，研究人员应确定总体中的各个亚组。然后他们应该分析样本以确定这些亚组是否在研究中得到充分代表。

在某些情况下，研究人员可能会发现某些亚组在他们的研究中被过度代表或代表不足。此时，研究人员可以实施偏差校正方法。一种方法是为错误表示的子组分配权重，以便在统计上纠正偏差。该加权平均值考虑了每个亚组的比例相关性，可以得出更准确地反映研究人群实际人口统计数据的结果。