吴喜之老师统计课笔记整理与随感
引子
什么是完全属于自己的东西?
其实很多东西都难以把握,而完全属于自己的东西,就是真正重要的能力——快速自学的能力和独立思考的能力。外部环境和他人无法夺走你的能力,知识与爱心。爱人如己就是对别人的尊重(谢谢吴老师的这句话)。
什么是学习统计真正需要的东西?
统计思维到底是什么
统计学并不同与数学。同时对于心理学、医学专业来说,传统的统计学知识,也并不适用于硕博士所面向的科研工作——当然,对于工作场景下的差距也许就更大了。从数学的角度来说,数学是假定下的思考与推导,而这并不同于统计学思维。从传统的统计学知识角度来看,我们则是要摒弃陈旧的被灌输的概念,而掌握真正的统计学。那么什么是真正的统计学呢?实质上就是如今的数据科学:一门研究收集、分析、展示和解释数据的科学。
数据科学需要的是什么
数据科学所需要的,是:
- 数学性的严格思维逻辑与归纳能力
- 泛型编程能力(即熟悉编程的基本思想,而不仅仅是一两种语言)
- 专业领域知识
由于在数据科学的相关工作中,我们常常要整合现有的数据资源,并根据需求采用不同的分析方法,解决面临的实际问题。这就意味着,我们很难在工作场景中,去面对我们课本上的理想状态——数据不是整齐的,也许都不是结构化的;数据本身并不满足选用的分析方法的典型条件,或者是常规的数据分析方法并不能解决问题;甚至连工作环境可能都并没有配置好的 Python、R ,这就意味着,数据分析人员不仅要熟练掌握编程方法以高效地清洁数据、整合分析方法、开发新的分析方案,同时更要高屋建瓴地从基本思想与概念的角度,去理解使用编程方法处理数据的流程,从而达到对于常用的编程工具都有分析思路,并能在借助文档的基础上完成分析过程,如此才能适应各种工作场景。而由于数据分析的工作本身,就是处理数据流的过程,很容易就可以从中抽象出典型的分析过程,所以这一点并不难以达到。
解决实际问题时,专业领域知识则最为重要。对于问题应该如何定义,应当如何选择指标并且进一步量化,分析中应当提出什么样的假设,结果应该如何去解决,分析的信效度又当如何去衡量,这一系列疑问大多需要通过专业知识,或在专业知识与数据处理相关知识的配合下予以解决。而其中的每一点,都值得展开去探讨。
统计学中的一些典型问题
吴老师在课程中举了一些统计学的应用中的常见误区,以提醒我们从更正确的角度理解统计学的基本概念。
假设检验的滥用
有时候我们会得到不能拒绝零假设的结果,那时候能不能接受零假设呢?不能。
不能拒绝零假设时,只是没有充足的证据拒绝零假设,从而得不到拒绝零假设时犯错误的概率这样的信息,但不可能有接受零假设的结论。统计学永远不可能证明任何假定,只能在一定概率上拒绝不正确的假定并给出犯错的概率(p值)。而凡是无法拒绝的假设,我们只能说证据不足,但并不能说可以接受零假设(也因此,在心理学研究中,我们得到统计结果并不显著时,也不能说效应不存在,这样的结果并不能成为结果)。
p小于多少时才算显著?
p应当小于多少时才算显著,这个问题完全依赖于问题本身。对于不同的需求,容错率是不同的,因此需要根据实际问题问题出发——也就是专业知识所需要解决的问题。
置信区间的含义
置信区间所指的是从总体中抽取无数个样本后,有多大的概率使样本的统计量处在置信区间当中。但是并不能说单个样本的统计量有多大的可能在这个范围当中,因为当样本抽取以后,统计量已经成为定值,并不能用概率描述。类似的例子如天气预报,我们可以预报明天的降水概率是50%,但当明天已到(或已过),降水已成事实,就不能用概率描述。
统计方法的假定
每种统计方法,都存在着假定,而这些假定有有形的,更有无形的。例如最小二乘法线性回归,我们已经知道的基本假定包括需要确定模型是线性的,样本点是独立且同分布的,样本本身符合正态分布或为大样本的。
而更需要注意的,是无形的假定。例如解释模型时,自变量的系数是指其他自变量不变的情况下,该自变量增加一个单位时因变量的变化程度,但该说法的要基于因变量间相互独立的前提,而在实际情境中很难遇到(马克思主义告诉我们说,事物是普遍联系的嘛)。因此系数在实际工作中指导意义不大(所以我们确实也很少用)。
同时一些模型的检验方法,通常也很难达到检验效果,因为分析结果常常不符合实际情境,且检验方法通常都是自己检验自己(如R^{2} 作为检验标准,当R^{2} = 1 理论上最好,但是容易出现过拟合,数据稍微变换,就有可能出现差异)。因此最佳的数据检验方法是交叉验证(Cross Validation,CV),因为使用该方法无需任何前提假设。常见的留一、分半、十折等都可以按需选用。尤其对于脑成像研究来说,不妥当的实验设计,可能会使每个被试的成像结果都有很大的差异,而交叉验证则可以快速验证数据质量。
统计量本身并不能做回归等数据分析
我们常在一些广泛的调查中遇到这类问题,对各省市区等收集到的数据,首先进行了一些描述统计后,再对统计量本身进行了假设检验等分析。但是实际上收集到的数据并不是样本,而是汇总的量,这些量不符合正态性亦不独立,任何超出描述性的方法都值得怀疑。