刚上研究生的时候,导师问我:「你的数据不符合正态分布,你打算怎么处理?」
我当时整个人都愣住了——什么?不符合正态分布?我数据都收完了才发现这个问题,怎么办?当场改数据?还是换方法?还是……
导师看出了我的慌张,说:「回去查清楚,下次组会给我讲。」
我回去折腾了整整一周,终于把这个东西彻底搞明白了。今天我用一篇文章把正态分布检验和3种补救方案全部讲清楚,你以后遇到这个问题,直接照着做就行,不用再像我一样折腾一周。
PART01
先搞清楚:什么是正态分布,为什么它这么重要?
正态分布简单说就是一种数据的「标准形态」——大部分数据集中在中间,少部分往两边散开,像一个钟形曲线。
统计学里几乎所有的参数检验(t检验、方差分析、回归)都要求数据近似正态分布。为什么?因为这些检验的原理就是假设数据服从正态分布,然后基于这个假设来算概率。
如果数据严重偏态,你还用普通t检验或者方差分析,结果就会不准确。
PART02
第一步:怎么检验正态分布?
做分析之前,先检验你的数据正不正。常用方法:
方法1: Shapiro-Wilk检验(最常用)
# 检验单变量 shapiro.test(data$variable) # 如果 p > 0.05,说明数据近似正态分布 # 如果 p < 0.05,说明数据显著偏离正态分布