p值,顯著有問題 - 科學人雜誌

文章推薦指數: 80 %
投票人數:10人

p=0.05代表在多次試驗中,研究結果否定正確假設的機率達到1/20(常被誤認為試驗出錯的機率是5%)。

正因如此,統計學家很久以前就提出「信賴區間」,來 ... 購買本期 瀏覽全文前往科學人知識庫 編輯推薦 p值,顯著有問題 2020-02-01 丹維斯(LydiaDenworth) 學者大力呼籲改革通用的統計方法,會為科學帶來改變嗎? 英國遺傳學家兼統計學家費雪(RonaldFisher)在1925年出版《研究工作者的統計方法》,書名看起來沒有成為暢銷書的魅力,不過此書大賣,從此確立了費雪現代統計學之父的地位。

費雪在這本書中探討研究人員該如何把統計檢定應用到數值資料,來得出結論並判斷實驗是否值得進行下去。

他提到一種統計檢定方法,能總結資料與所提出模型的相容性,並產生p值。

他建議研究人員把p<0.05當成實用標準:「要判斷研究結果的差異是否顯著,以這一點當做門檻很方便。

」他還建議繼續那些p<0.05的實驗,不要花時間在p>0.05的實驗上。

由此就誕生了這個概念:p<0.05等同於所謂的統計顯著性(statisticalsignificance),這是實驗結果「有意義」(significant)的數學定義。

將近一個世紀後,在許多科學領域中p<0.05成為判斷實驗價值的最高標準,它為學術工作中不可或缺的經費補助與論文發表鋪了路,成為大多數科學結論發表的基礎。

然而連費雪也了解,統計顯著性及p值有非常大的局限。

大部份的局限已在幾十年間逐漸受到科學界認同,心理學家密爾(PaulMeehl)在1978年寫道:「科學研究過度仰賴顯著性檢定很糟糕。

」p值經常遭曲解,而且統計顯著性與實驗有意義並不是同一回事。

此外在許多實驗中,研究人員都可能在有意無意間,因使用不同檢定方法而得出不同的p值。

統計學家兼流行病學家格林蘭(SanderGreenland)說:「像大家常說的,你可以用統計證明任何一件事。

」他是美國加州大學洛杉磯分校榮譽教授,也是呼籲改革的主要人士。

研究人員若只仰賴實驗結果是否具有統計顯著性,通常會得出不正確的推論,把錯的結果解釋成對的、對的結果解釋成錯的。

費雪退休後移居澳洲,有人問他生涯中是否有遺憾?據稱他厲聲說道:「真不該提到0.05。

」 過去10年,關於統計顯著性的論戰越演越烈,其中一篇文章稱站不住腳的統計分析基礎為「科學界最卑劣的秘密」,另一篇則舉例說明顯著性檢定「深藏大量瑕疵」。

實驗經濟學、生醫研究等領域深陷具爭議的再現性危機,心理學更是如此,大家發現很多已發表的研究結果無法再現。

惡名昭彰的例子之一是某些姿勢能帶來自信的研究:研究人員聲稱,堅定自信的肢體語言不僅會改變態度,還會改變體內的激素濃度,這個聲稱是根據一篇論文,但後來遭其中一位作者駁斥。

哥倫比亞大學統計學家吉爾曼(AndrewGelman)在部落格寫道,有懷疑論者發表一篇談論氣候變遷經濟學的論文,「後來被糾出的錯誤幾乎和資料點一樣多,不騙你!但這些指正並沒有讓他改變原先的結論。

」吉爾曼經常在部落格斥責做出劣質研究、且不願意承認當中有缺失的研究人員。

他寫道:「嘿,要做純理論工作當然可以,但就不應該用數據轉移我們的注意力。

」 統計顯著性這個概念雖然不是研究結果無法再現的唯一因素,但確實是這個問題當中很明顯的環節。

過去三年有上百位研究人員大力呼籲改革,並在頗具聲望的期刊上發表文章或連署,主張重新定義或完全捨棄統計顯著性。

美國統計協會在2016年針對這個問題發佈強硬且不尋常的聲明,主張要「走向不使用p<0.05的世界」。

協會常務理事華瑟斯坦(RonaldWasserstein)說:「統計顯著性就像在手機交友軟體Tinder向右滑,只表示感興趣。

但不幸的是科學界使用統計顯著性的方式並非如此。

大家會說:『我達到0.05就好了。

』研究就停住了。

」 科學家的呼籲是否會帶來改變?南加州大學行為經濟學家班傑明(DanielBenjamin)說:「沒有新鮮事。

我們需要認清,或許這次還是會像以往一樣。

」班傑明也是大聲疾呼改革的人士。

儘管他們對於補救辦法莫衷一是,但有這麼多研究人員同意經濟學家齊利亞克(StephenZiliak)所言「目前的顯著性檢定、解釋、發表文化必須廢除」,著實引人關注。

p值要多小才夠? 科學研究的目的是描述自然界中的真實情況,科學家使用統計模型推論出某項事實,例如判定某種療法是否比另一種更有效、一組樣本是否與另一組不同。

每個統計模型都依賴一組假設,關乎研究人員如何蒐集並分析資料,以及如何呈現研究結果。

大部份研究使用稱為「虛無假設顯著性檢定」的統計方法來產生p值,這種檢定方法並沒有正視事實,而是「斜著眼看」,因為顯著性檢定只表明某個研究方向值不值得繼續下去。

班傑明表示:「我們進行實驗時想知道假設成立的可能性有多大,但顯著性檢定回答的是另一個更複雜的問題:如果我的假設是錯的,產生這些數據的可能性有多小?」 這種方法有時候行得通,尋找希格斯玻色子就是極端但有效的例子。

物理學家在1960年代首次提出希格斯玻色子,在這個例子中,虛無假設是希格斯玻色子並不存在,對立假設是它一定存在。

歐洲核子研究組織(CERN)大強子對撞機(LHC)的研究團隊進行了多次實驗,得出小到不能再小的p值,意味著如果希格斯玻色子不存在,這個研究結果的發生率是350萬分之一。

這讓虛無假設站不住腳。

接著他們再檢查一次,確定這個結果不是由誤差產生。

格林蘭說:「這個結果在科學上如此重要,並在2013年獲得諾貝爾物理獎肯定,原因就是他們經歷千辛萬苦,確定如此小的值不是任一潛在問題所能產生的。

這麼小的值說明,『缺少希格斯玻色子的粒子物理標準模型』不可能是對的,做到這個程度,結果非常清楚。

」 但其他研究領域達不到物理學實驗的精準度,就像心理學試驗,研究結果的發生率永遠不可能是350萬分之一。

p=0.05代表在多次試驗中,研究結果否定正確假設的機率達到1/20(常被誤認為試驗出錯的機率是5%)。

正因如此,統計學家很久以前就提出「信賴區間」,來標示估計值的誤差大小或不準度。

信賴區間在數學上跟p值有關,p值的範圍是0~1,從1扣掉0.05會得到0.95,即95%,也就是常用的信賴區間。

信賴區間只能概括眾多效果量的假設檢定結果,格林蘭說:「並不代表我們對假設有信心。

」但久而久之,p值和信賴區間的地位都更加穩固,給人絕對正確的錯覺。

..... 【欲閱讀全文或更豐富內容,請參閱〈科學人知識庫〉2020年第216期02月號】   購買本期 #關鍵字:編輯推薦 更多文章 編輯推薦肯亞保育鬥士─理查.李基2017/04/01許夫曼(RichardSchiffman)2016年4月30日,肯亞總統甘耶達(UhuruKenyatta)下令焚燒該國沒收充公的象牙和犀牛角。

這是此類行動規模最大的一次,價值一億美元的105公噸象牙和價值6700萬美元的1.3公噸犀牛角全...編輯推薦暫停呼吸的極限2016/05/20帕克斯(MichaelJ.Parkes)重點提要■是哪裡決定我們能暫時停止呼吸多久?通常我們在腦部或身體耗盡氧氣(明顯的極限)前,就忍不住要呼吸了。

■我們難以探究暫停呼吸的極限,但數十年來的研究顯示,橫膈膜收縮使肺臟擴張,扮演關鍵角色。

■最...科研專輯從台灣到西藏--獅泉河天文台興建紀實2011/12/01李名揚站在海拔5100公尺的阿里山上,空氣稀薄,一直感覺呼吸不順、心跳急促,行動稍微快一點就氣喘吁吁;然而這裡一年有八個月都是萬里無雲的好天氣,對天文學家來說,這真是夢寐以求的寶地!這裡不是台灣的「阿里山」... 活動推薦更多 追蹤科學人



請為這篇文章評分?