吴喜之老师统计课笔记整理与随感

Last updated on 2020-07-25 5 min read Learning

引子

什么是完全属于自己的东西？

其实很多东西都难以把握，而完全属于自己的东西，就是真正重要的能力——快速自学的能力和独立思考的能力。外部环境和他人无法夺走你的能力，知识与爱心。爱人如己就是对别人的尊重（谢谢吴老师的这句话）。

什么是学习统计真正需要的东西？

统计思维到底是什么

统计学并不同与数学。同时对于心理学、医学专业来说，传统的统计学知识，也并不适用于硕博士所面向的科研工作——当然，对于工作场景下的差距也许就更大了。从数学的角度来说，数学是假定下的思考与推导，而这并不同于统计学思维。从传统的统计学知识角度来看，我们则是要摒弃陈旧的被灌输的概念，而掌握真正的统计学。那么什么是真正的统计学呢？实质上就是如今的数据科学：一门研究收集、分析、展示和解释数据的科学。

数据科学需要的是什么

数据科学所需要的，是：

数学性的严格思维逻辑与归纳能力
泛型编程能力（即熟悉编程的基本思想，而不仅仅是一两种语言）
专业领域知识

由于在数据科学的相关工作中，我们常常要整合现有的数据资源，并根据需求采用不同的分析方法，解决面临的实际问题。这就意味着，我们很难在工作场景中，去面对我们课本上的理想状态——数据不是整齐的，也许都不是结构化的；数据本身并不满足选用的分析方法的典型条件，或者是常规的数据分析方法并不能解决问题；甚至连工作环境可能都并没有配置好的 Python、R ，这就意味着，数据分析人员不仅要熟练掌握编程方法以高效地清洁数据、整合分析方法、开发新的分析方案，同时更要高屋建瓴地从基本思想与概念的角度，去理解使用编程方法处理数据的流程，从而达到对于常用的编程工具都有分析思路，并能在借助文档的基础上完成分析过程，如此才能适应各种工作场景。而由于数据分析的工作本身，就是处理数据流的过程，很容易就可以从中抽象出典型的分析过程，所以这一点并不难以达到。

解决实际问题时，专业领域知识则最为重要。对于问题应该如何定义，应当如何选择指标并且进一步量化，分析中应当提出什么样的假设，结果应该如何去解决，分析的信效度又当如何去衡量，这一系列疑问大多需要通过专业知识，或在专业知识与数据处理相关知识的配合下予以解决。而其中的每一点，都值得展开去探讨。

统计学中的一些典型问题

吴老师在课程中举了一些统计学的应用中的常见误区，以提醒我们从更正确的角度理解统计学的基本概念。

假设检验的滥用

有时候我们会得到不能拒绝零假设的结果，那时候能不能接受零假设呢？不能。

不能拒绝零假设时，只是没有充足的证据拒绝零假设，从而得不到拒绝零假设时犯错误的概率这样的信息，但不可能有接受零假设的结论。统计学永远不可能证明任何假定，只能在一定概率上拒绝不正确的假定并给出犯错的概率（p值）。而凡是无法拒绝的假设，我们只能说证据不足，但并不能说可以接受零假设（也因此，在心理学研究中，我们得到统计结果并不显著时，也不能说效应不存在，这样的结果并不能成为结果）。

p小于多少时才算显著？

p应当小于多少时才算显著，这个问题完全依赖于问题本身。对于不同的需求，容错率是不同的，因此需要根据实际问题问题出发——也就是专业知识所需要解决的问题。

置信区间的含义

置信区间所指的是从总体中抽取无数个样本后，有多大的概率使样本的统计量处在置信区间当中。但是并不能说单个样本的统计量有多大的可能在这个范围当中，因为当样本抽取以后，统计量已经成为定值，并不能用概率描述。类似的例子如天气预报，我们可以预报明天的降水概率是50%，但当明天已到（或已过），降水已成事实，就不能用概率描述。

统计方法的假定

每种统计方法，都存在着假定，而这些假定有有形的，更有无形的。例如最小二乘法线性回归，我们已经知道的基本假定包括需要确定模型是线性的，样本点是独立且同分布的，样本本身符合正态分布或为大样本的。

而更需要注意的，是无形的假定。例如解释模型时，自变量的系数是指其他自变量不变的情况下，该自变量增加一个单位时因变量的变化程度，但该说法的要基于因变量间相互独立的前提，而在实际情境中很难遇到（马克思主义告诉我们说，事物是普遍联系的嘛）。因此系数在实际工作中指导意义不大（所以我们确实也很少用）。

同时一些模型的检验方法，通常也很难达到检验效果，因为分析结果常常不符合实际情境，且检验方法通常都是自己检验自己（如R^{2} 作为检验标准，当R^{2} = 1 理论上最好，但是容易出现过拟合，数据稍微变换，就有可能出现差异）。因此最佳的数据检验方法是交叉验证（Cross Validation，CV），因为使用该方法无需任何前提假设。常见的留一、分半、十折等都可以按需选用。尤其对于脑成像研究来说，不妥当的实验设计，可能会使每个被试的成像结果都有很大的差异，而交叉验证则可以快速验证数据质量。

统计量本身并不能做回归等数据分析

我们常在一些广泛的调查中遇到这类问题，对各省市区等收集到的数据，首先进行了一些描述统计后，再对统计量本身进行了假设检验等分析。但是实际上收集到的数据并不是样本，而是汇总的量，这些量不符合正态性亦不独立，任何超出描述性的方法都值得怀疑。

Learning 统计哲学