历史上的今天
返回首页

历史上的今天

今天是:2025年03月07日(星期五)

正在发生

2018年03月07日 | 什么是p值?为何专家为它争论不休

2018-03-07 来源:eefocus

72位学术大牛一起发了篇论文,引来87位作者署名的反驳论文。对于统计学上牵动人心的P值要多小才能算结果显著,科学家们开始了一场大规模论战,甚至用上了谷歌共享文档。

 

荷兰埃因霍温理工大学的心理学家丹尼尔·莱肯斯(Danil Lakens)以心直口快闻名。2017年7月22日,他在读完一篇标题为《重新定义统计显著性》的预印本论文后,毫不留情地在推特上开喷:“一群聪明人给出这么恐怖的糟糕建议,我对此非常失望。”这篇被喷的论文由70位著名的科学家共同完成,两个月后发表在了知名期刊《自然-人类行为》上。

 

发起反驳论文的作者丹尼尔·莱肯斯

 

而让莱肯斯抓狂的原因是:这篇论文建议降低在众多实验中使用的显著性阈值,让p值低于0.005而非现在使用的0.05时才能算作结果显著。科学家们希望用这种方式降低假阳性率,提高科学实验的重现率。

 

但是37岁的莱肯斯认为这是一个灾难性的想法。在一个更低的显著性阈值要求下,需要更大的样本量才能让统计结果显著,会让许多实验无法操作。再者,他说,“当科学如此多样化的时候,为什么要限制一个单一的p值标准?”

 

他和他的同事们在今年年初也投递了一篇针锋相对的论文,被《自然-人类行为》接受。与众不同的是,这篇文章是全世界上百位科学家在谷歌文档里共同写出来的。

 

什么是p值?

P值是一个非常难掌握的概念。现在,让我们先通过简单粗暴的方式理解区分关于p值的各种概念:

 

零假设:默认立场,或这说两个统计现象A和B没有联系。

 

假设:科学家提出并要去证明的观点,与零假设矛盾。如:假设A和B有联系。证明以归谬法的逻辑,若零假设是错的,那么与零假设相反的结论可能有效。

 

P值:简单来说,P值越小,零假设有问题的可能性越大,你的假设就越可能成立。若P=0.05,则这时拒绝零假设,有5%的可能性你“冤枉了”正确的零假设;若P=0.01,那么拒绝零假设你只有1%的可能是错的。

 

显著性阈值(α):P值小到什么时候才能拒绝零假设又被学界认可?这个一刀切的门槛就是显著性阈值,完全人为设定。目前这个学界认可的门槛高度是0.05,即当p值小于0.05时可以说实验结果统计学上显著。

 

P值方法是广泛使用的统计手段,但因其自身的缺陷饱受争议。学界对于p值的讨论一直很热烈,有一批科学家就认为,由p值小于0.05推出的结论并不如人们想象中的那么靠谱,需要降低实验中使用的显著性阈值。

 

谷歌文档里的激烈讨论

想要反驳修订阈值的论文,光用推特可不行。

 

毕竟经过一次扩容后的推特,最多也才能发280个字。为了能深入讨论P值修订的问题,莱肯斯干脆在谷歌上创建了一个共享文档,标题是“为你的α值正名:对‘重新定义统计显著性’的回应”。莱肯斯在文档中列出了12个讨论点,包括“我们应该对这个建议做出评价还是无视它”以及“这样重新定义统计显著性存在的潜在负面影响是什么”。

 

莱肯斯说他想要这次的方案尽可能考虑每个人的想法,使想加入的人都等加入进来,并且没有主动找任何有名的科学家。在这种情况下,有接近150位科学家加入了讨论,文档激增到了100页。

 

讨论的参与者十分多样,有很多来自不那么有名的学校,很多人分享了他们的私人经验。因为p值和样本量有关,所以想要得到小于0.005的p值,可能需要更多的样本。有些参与者表示他们难以负担这样的大型实验,或者是没有办法招募到足够的被试。有些人则指出这个更低的阈值会使研究者转而寻求“方便的样本”,比如找本科学生或者采用网络研究。批评者还指出满足要求的大型实验更加难以复制,违背了提出新标准的初衷。同时,一个更严格的显著性阈值可能会让研究人员规避风险、更少地去研究困难课题。

 

除开修改阈值对科研造成的负面影响,参与者们对论文最大的质疑还是在于:0.005其实和0.05一样随意,真正的阈值实际上取决于我们对一个主题的了解程度和在这个主题上得到错误答案的风险。比如,初步实验对出现假阳性结果的风险接受度应该更高,药物实验则可能需要一个更低的p值。

 

莱肯斯希望能将谷歌文档中的讨论变成论文发表,不过这一次事情没有那么顺利。

 

人多也有人多的麻烦

丹尼尔·布拉福德(Daniel Bradford)是威斯康星大学麦迪逊分校的临床心理学博士生。布拉福德十分高兴能为论文出一份力,“我做了很久的统计学学生,也参过大量改良心理学实验方法的讨论。”不过他刚开始的时候怀疑这种共同写作的方法行不通,“在我和仅仅五位作者共同完成论文的时候,都时常想如果人更少的话效率会更高。”

 

为了顺利成文,莱肯斯从讨论中提取了要点放在一个新的谷歌文档里作为论文的基础。

 

“这份文档的演变过程让人难以置信,人们添加、删除再添加,旁观者又提出新的看法。这种模式奏效了。人们愿意承担特定工作,比如修改参考文献、检查段落和标点的问题。当我们不得不压缩文章的时候,一些作者化身食人鱼消灭掉了一切不必要的内容。”莱肯斯说。

 

虽然作者们精诚合作,但留给莱肯斯的任务还是很多——尤其是在莱肯斯需要完成常规工作的情况下。他只能利用空闲时间来完成任务,比如早上或者夜间。

 

“有那么一瞬间我觉得我要疯了。”莱肯斯说。

 

在论文完稿的过程中,有几个参与者选择了退出,部分原因是他们不同意论文中的部分内容。最终87个人同意成为论文的共同作者。

 

修订阈值派的回应

莱肯斯等人的论文建议完全丢弃“统计显著性”的标签。作为替代,研究者应该描述并解释它们的实验设计和数据处理方式,包括所选取的统计阈值。“有时候显著性水平可以是0.05,有时候是0.005,或者是0.10。”莱肯斯说。

 

对于莱肯斯的观点,主张修订显著性阈值的科学家们也有所回应。

 

原论文《重新定义统计显著性》的第一作者是德克萨斯农工大学的瓦伦·约翰逊(Valen Johnson),他认为莱肯斯的方法行不通。“让每篇论文的作者决定他们自己的显著性水平是不可行的,”他在写给《科学》的邮件中写道,“理由很简单,没有足够的资源对每个被提出的显著性阈值进行详细、公证的审查。”同时也不清楚“证明α的合理性”在实际中如何操作,论文的共同作者、阿姆斯特丹大学的埃里克-简·瓦根马克斯(Eric-Jan Wagenmakers)补充道。

 

另一位重要的共同作者态度更为温和。在弗吉尼亚大学的心理学家布莱恩·诺塞克(Brian Nosek)看来,“莱肯斯那篇论文中传达出的信息非常好,实际上不是对我们的论文的批判。” 诺塞克说《重新定义统计显著性》这篇论文传达的关键信息非常有限:目前0.05的显著性阈值让人们高估了证据的可信度,如果要降低这一阈值,0.005是一个合理的替代值。

 

“其他对显著性问题的建议,比如抛弃所有的显著性检验、对所选取的α做出解释、结合贝叶斯推论、更多的重复实验等等,也都是非常不错的改进。”诺塞克说。

 

这一场辩论还会继续,不过地点可能不会是谷歌文档了。谷歌文档中发生的故事“令人惊叹”但效率并不是很高,莱肯斯说,“当你的时间有限时,你不应该这么做。”

 

“讨论很激烈。我们确实因为无法取得统一的意见,放弃掉了一些论点。如果只有我一个作者,我会把那些加进去的。”莱肯斯补充说道。

 

看来关于统计显著性,能讨论的还有很多。而每一次讨论,都可能是完善科学方法的星星之火。


推荐阅读

史海拾趣

EM Devices Corporation公司的发展小趣事

EM Devices Corporation的创始人在电子工程领域有着深厚的背景,他们看到了当时市场上对高性能电子元件的迫切需求。于是,他们决定创办EM Devices Corporation,专注于研发和生产高质量的电子元件。起初,公司面临了资金、技术和市场等多方面的挑战。然而,凭借创始人对技术的执着追求和对市场的敏锐洞察,公司成功研发出了一款具有竞争力的产品,并逐渐在市场上获得了认可。

DMEL Inc公司的发展小趣事

在市场竞争日益激烈的情况下,DMEL Inc意识到品牌建设的重要性。公司开始注重品牌形象的塑造和推广,通过广告宣传、公益活动等方式,提升品牌的知名度和美誉度。同时,DMEL Inc还加强了与消费者的沟通和互动,了解消费者的需求和反馈,不断改进产品和服务。这些努力使得DMEL Inc在消费者心中树立了良好的品牌形象。

DIOO公司的发展小趣事

面对数字化时代的挑战和机遇,DIOO公司决定加快数字化转型步伐。通过引入云计算、大数据、人工智能等先进技术,DIOO公司实现了产品设计、生产、销售等各个环节的数字化管理。同时,DIOO公司还积极探索新的商业模式和市场机会,与互联网企业、电信运营商等合作伙伴共同打造智能生态圈。未来,DIOO公司将继续秉承创新、卓越、服务的理念,致力于成为全球领先的电子产品制造商和服务提供商。

BELDEN公司的发展小趣事

在发展过程中,BELDEN公司积极实施国际化战略,不断拓展海外市场。公司在全球范围内设立了多个分支机构和销售网络,覆盖了北美、欧洲、亚洲等多个地区。通过与国际知名企业的合作与交流,BELDEN不断引进先进的技术和管理经验,提升了自身的研发能力和管理水平。同时,公司还针对不同地区的市场需求,推出了定制化的产品和服务,赢得了广大客户的信任和好评。

Amphenol Nexus公司的发展小趣事

2008年,Amphenol公司看中了Nexus, Inc.在连接器领域的潜力,决定对其进行收购。收购完成后,Amphenol成立了提供全球销售支持的Amphenol Nexus Technologies,同时仍保持了对客户支持和开发的坚定承诺。这一举措使Amphenol Nexus Technologies得以借助Amphenol的全球性的资源和网络,进一步拓展其业务范围和市场影响力。

Advanced Thermal Products Inc公司的发展小趣事

随着国内市场的不断饱和,ATP公司开始将目光投向国际市场。他们制定了国际化发展战略,通过设立海外分支机构、参加国际展会等方式拓展海外市场。同时,公司积极与国际知名企业合作,共同开发新产品、新技术,实现了互利共赢。这些举措为ATP公司的全球化发展奠定了坚实基础。

请注意,上述故事仅为虚构内容,不代表Advanced Thermal Products Inc公司的真实发展历程。如需了解该公司的真实情况,建议查阅相关资料或访问其官方网站。

问答坊 | AI 解惑

变频电源和变频器的区别

近十年来,由整个电路构成交流一直流一交流一滤波的变频装置变频电源,应运而生,并得到广泛应用。变频电源不仅能模拟输出世界不同国家的电网指标,而且也为出口电器厂商一工程师在设计开发、生产、检测等应用中提供纯净可靠的、低诣波失真的、高稳定的 ...…

查看全部问答>

水木清华上学生对搞PLC前途的讨论

水木清华上学生对搞PLC前途的讨论    soycola (要做就做最好) 于  (Wed Jan  1 200436 2003)  提到 技术含量不高,plc的计算能力、互联、互操作都不怎么样,plc本身没什么意思,虽然现在用的还挺多 更多内容下载请登陆:h ...…

查看全部问答>

经济型袖珍示波器V1.1版材料清单及成本估算

整理后经济型袖珍示波器V1.1版材料清单及成本估算如下: 电路原理图PCB图请参阅之前在坛子里发的“经济型袖珍示波器V1.1版电路原理图”及“经济型袖珍示波器PCB图” 至于包含已经焊好零件并检测完成的电路板的全套套件,就在上面全套散件价格的 ...…

查看全部问答>

什么是变频器的四象限运行?

1、四象限,用两个正交的数轴把平面分成四个部分,分别为四象限;2、两个数轴分别赋予不同的意义,或者代表不同意义的参数,这时四象限就分别表示参数变化时物体运动或变化的四个状态;3、凡是运动或变化的状态可以用两个独立的具有相反意义的参数 ...…

查看全部问答>

Linux 下 java 串口编程(拜求大家的帮助,请大家发发善心吧)

在linux下配置如下:   安装了jdk.1.6.0_10(linnux版)   安装了eclipse(linux) 然后配置环境:   EXPORT JAVA_HOME=/usr/jdk.1.6.0_10   EXPORT PATH=&JAVA_HOME/bin:&PATH   EXPORT CLASSPATH=.:&JAVA_HOME/lib/rt.jar:&JAVA_HOME ...…

查看全部问答>

wince 系统启动声音

请问wince 系统启动时的声音是从那个函数里发出来的?…

查看全部问答>

高效率LED驅動電源設計

本帖最后由 dontium 于 2015-1-23 13:33 编辑 高效率LED驅動電源設計 作者: 德州儀器Robert Kollman 摘要 本文提供LED特性及驅動電源優缺點的概要說明。文中將介紹數種常見的電源供應應用電路,並且詳細說明其閉迴路設計。本文亦討論LED調 ...…

查看全部问答>

基于MSP430的MPPT控制器

本系统系统以MSP430G2231位核心控制器,核心控制器通过DC-DC降压电路从12V蓄电池取电。通过对光伏太阳能板输出电压与电流进行采样,可以实现最大功率跟踪。通过对铅酸电池的电压及充电电流进行采样,可以实现蓄电池充电的控制。   …

查看全部问答>

求IAR 8051.8.10版本的软件

邮箱:chinaymj@gmail.com   官网的软件是8.11的我没有找到8.10的版本的,8.11的试用期过了,现在网上还没的破解的。 希望好心人能给我传一个谢谢!…

查看全部问答>

一直用IO口模拟I2C,这两天做msp430用到I2C却遇到问题,特来请教各位高手

以前用IO口模拟I2C一直都没有出现问题,现在正在做的msp430板子却怎么都调试不出来。现将所遇到的情况向各位汇报:1、一开始是向24C04写地址,但是始终没有应答信号,用示波器观察,SDA信号电平在中间位置,所以判断信号为高,无应答 2、于是我怀 ...…

查看全部问答>