剩下500字

统计一点通丨卡方检验应用实例解析(二)

发布日期:2018-11-17来源:SIFIC感染循证资讯发布人:陈小晓

SIFIC科研设计与统计分析


作者:医统家园和SIFIC循证团队


「循证感控」(Evidence based infection prevention and control,  EBIPC)含义丰富,工作中心基于证据(Evidence)。不仅仅在于证据的援引,更重要的价值在于努力寻找证据,发现证据,传播证据。然而,怎么才能科学的找到“证据”,并科学解读呢?科研设计和统计分析的重要性不言而喻。而这恰恰是感控相关工作人员甚至于对相当一部分临床工作者都是不小的困惑。


SIFIC循证与“医统家园”合作,共同推出「SIFIC科研设计与统计分析」专栏,通过案例分析和解读,为大家系统介绍和科普科研设计和统计分析基础知识、剖析精品文章中的科研设计技巧和统计知识等。大家也可以通过公众号、SIFIC论坛等一系列途径,咨询科研设计和统计分析困惑。



卡方检验的应用条件


由于卡方分布为一连续性分布,而分类数据频数统计为离散数据,因此卡方分布实际是卡方检验统计量的近似分布。这一近似是有条件的,通常认为总样本量大于40,各格子理论频数均大于5时,适合直接使用卡方检验。如不满足这一条件,则应对卡方检验结果进行校正,或使用其他统计方法处理。具体来说:当总样本量大于40 而理论频数大于等于1且小于5时,可使用连续性校正的卡方检验;而当总样本量小于40或理论频数小于1时,应使用精确概率检验。



这一判断过程比较冗繁,在实际分析中像给我们加了一个紧箍咒,好在SPSS软件可以方便的协助我们简化这一判断过程,并直接给出不满足使用条件时的其他分析结果。下面以两个实际例子来做一演示。



不满足条件时的处理方法



研究者欲比较单纯化疗与符合化疗的存活率有无区别,数据见表1。


▼表1 两种化疗方法的存活率比较

1.png


SPSS操作方法同上篇文章一致。分析结果见图1,卡方统计量对应P值为0.059,注意其脚标显示:有1个格子的理论频数为小于5,最小期望频数为4.68。本例中总样本量为131大于40例,根据上文介绍,我们知道应使用连续性校正的卡方统计量对应的P值。连续校正的卡方检验结果位于第二行,由图中可见,其P值为0.125。显然此时若直接使用卡方检验,则低估了I类错误。


同时,如果我们在第2步图6界面中,勾选Expected选项,也可以直接观察各格子的期望频数。由图2可见,单纯化疗-缓解的格子中期望频数为4.7,和图1结果一致。


 2.png

▲图1 卡方检验结果


3.png

▲图2 交叉表

 

研究者欲比较脑两半球恶性肿瘤所占比例是否相同。数据见表2。分析方法同上篇文章,结果见图3。其总样本量小于40,因此应使用精确概率法。其结果在第四行的显示,其对应的P值为0.226,显然若使用卡方统计量的P值,则会低估I类错误。


▼表2 大脑两半球恶性肿瘤所占比例

4.png


5.png

▲图3 精确概率法结果



总结



本文介绍了卡方检验的应用条件以及条件不满足时的处理方法。相信大家对于卡方检验的使用会有一个初步的认识。值得指出的是:本文中使用的数据示例均为2x2的四格表资料。但是卡方检验的应用不限于此,对于RxC列表的无序分类资料亦适用,但是此时卡方检验的结果含义是各组之间的构成不全相同,如需了解各组之间具体哪两组不同,则需进行多重比较。

 

数据来源:卫生统计学第八版,人民卫生出版社