一项调查表明,众多中国研究者未能正确理解科学研究中常用的统计方法,其中甚至包括数学等学科的专业人士。
这项在中国进行的研究表明,约9成受访研究者和学生无法正确地解释P值和置信区间的用法,而这些是用于分析科学结果最常见的两项统计工具。
约1500名研究者参与了调查,对象涵盖本科生至博士后研究员。该研究分发给受访者一系列关于P值和置信区间的错误解释,并要求他们判断正误。
受访者中,有89%在P值相关问题上至少答错一题,而93%的人在判断置换区间的解释时答错至少一题。
错误理解这两种方法的比例并未体现出很大学科差异,甚至有85%到90%的数学和统计学专业学生也未能发现所有陈述是错误的。
即使仅看研究生和研究人员的水平区间,对这两个方法的误解率也很高。在获得博士学位的参与者中,误解P值的比例略有下降。
该调查还要求受访者在1至5的数字中选择对自己回答的确信程度。结果显示,研究人员和学生们“对他们(错误的)判断普遍充满信心”。
该论文称:“这些结果显示,研究人员普遍缺乏对这些常见统计指标的良好理解。”这可能表明,错误使用这些方法的固有“惯例”,“并不局限于心理学或社会科学,而是遍布整个科学界”。
这篇发表在《环太平洋心理学杂志》(Journal of Pacific Rim Psychology)的论文,为P值等工具的使用问题提供了更多证据。去年,曾有统计学家严正呼吁,反对把这两种工具作为证明研究“具有统计学意义”的方法。
这项新研究的共同作者,德国莱布尼茨韧性研究所(Leibniz Institute for Resilience Research)的博士后研究员胡传鹏表示,对大学生进行更好的统计推断训练将有助于解决这个问题;但是, “各层次”的学者也需要进行“持续学习”。
此外,他警告说,研究者的激励机制也必须改变。“当下的系统不太关心研究正确性,得到奖励的是那些高产的人。改变这一风气是一个长期性的目标。”
分析同时发现,那些在中国大陆以外地区获得最高学位的受访者,在解释P值时的错误率略低于其他群体。
论文称:“对这一情况唯一可能的解释是,相比中文媒体,英文媒体对科研重复性危机的探讨更多。因此,在海外学习过的学生比中国学生更熟悉这个话题。”
simon.baker@timeshighereducation.com
本文由陆子惠为泰晤士高等教育翻译。