p值,顯著有問題 - 科學人雜誌
文章推薦指數: 80 %
p=0.05代表在多次試驗中,研究結果否定正確假設的機率達到1/20(常被誤認為試驗出錯的機率是5%)。
正因如此,統計學家很久以前就提出「信賴區間」,來 ...
購買本期
瀏覽全文前往科學人知識庫
編輯推薦
p值,顯著有問題
2020-02-01
丹維斯(LydiaDenworth)
學者大力呼籲改革通用的統計方法,會為科學帶來改變嗎?
英國遺傳學家兼統計學家費雪(RonaldFisher)在1925年出版《研究工作者的統計方法》,書名看起來沒有成為暢銷書的魅力,不過此書大賣,從此確立了費雪現代統計學之父的地位。
費雪在這本書中探討研究人員該如何把統計檢定應用到數值資料,來得出結論並判斷實驗是否值得進行下去。
他提到一種統計檢定方法,能總結資料與所提出模型的相容性,並產生p值。
他建議研究人員把p<0.05當成實用標準:「要判斷研究結果的差異是否顯著,以這一點當做門檻很方便。
」他還建議繼續那些p<0.05的實驗,不要花時間在p>0.05的實驗上。
由此就誕生了這個概念:p<0.05等同於所謂的統計顯著性(statisticalsignificance),這是實驗結果「有意義」(significant)的數學定義。
將近一個世紀後,在許多科學領域中p<0.05成為判斷實驗價值的最高標準,它為學術工作中不可或缺的經費補助與論文發表鋪了路,成為大多數科學結論發表的基礎。
然而連費雪也了解,統計顯著性及p值有非常大的局限。
大部份的局限已在幾十年間逐漸受到科學界認同,心理學家密爾(PaulMeehl)在1978年寫道:「科學研究過度仰賴顯著性檢定很糟糕。
」p值經常遭曲解,而且統計顯著性與實驗有意義並不是同一回事。
此外在許多實驗中,研究人員都可能在有意無意間,因使用不同檢定方法而得出不同的p值。
統計學家兼流行病學家格林蘭(SanderGreenland)說:「像大家常說的,你可以用統計證明任何一件事。
」他是美國加州大學洛杉磯分校榮譽教授,也是呼籲改革的主要人士。
研究人員若只仰賴實驗結果是否具有統計顯著性,通常會得出不正確的推論,把錯的結果解釋成對的、對的結果解釋成錯的。
費雪退休後移居澳洲,有人問他生涯中是否有遺憾?據稱他厲聲說道:「真不該提到0.05。
」
過去10年,關於統計顯著性的論戰越演越烈,其中一篇文章稱站不住腳的統計分析基礎為「科學界最卑劣的秘密」,另一篇則舉例說明顯著性檢定「深藏大量瑕疵」。
實驗經濟學、生醫研究等領域深陷具爭議的再現性危機,心理學更是如此,大家發現很多已發表的研究結果無法再現。
惡名昭彰的例子之一是某些姿勢能帶來自信的研究:研究人員聲稱,堅定自信的肢體語言不僅會改變態度,還會改變體內的激素濃度,這個聲稱是根據一篇論文,但後來遭其中一位作者駁斥。
哥倫比亞大學統計學家吉爾曼(AndrewGelman)在部落格寫道,有懷疑論者發表一篇談論氣候變遷經濟學的論文,「後來被糾出的錯誤幾乎和資料點一樣多,不騙你!但這些指正並沒有讓他改變原先的結論。
」吉爾曼經常在部落格斥責做出劣質研究、且不願意承認當中有缺失的研究人員。
他寫道:「嘿,要做純理論工作當然可以,但就不應該用數據轉移我們的注意力。
」
統計顯著性這個概念雖然不是研究結果無法再現的唯一因素,但確實是這個問題當中很明顯的環節。
過去三年有上百位研究人員大力呼籲改革,並在頗具聲望的期刊上發表文章或連署,主張重新定義或完全捨棄統計顯著性。
美國統計協會在2016年針對這個問題發佈強硬且不尋常的聲明,主張要「走向不使用p<0.05的世界」。
協會常務理事華瑟斯坦(RonaldWasserstein)說:「統計顯著性就像在手機交友軟體Tinder向右滑,只表示感興趣。
但不幸的是科學界使用統計顯著性的方式並非如此。
大家會說:『我達到0.05就好了。
』研究就停住了。
」
科學家的呼籲是否會帶來改變?南加州大學行為經濟學家班傑明(DanielBenjamin)說:「沒有新鮮事。
我們需要認清,或許這次還是會像以往一樣。
」班傑明也是大聲疾呼改革的人士。
儘管他們對於補救辦法莫衷一是,但有這麼多研究人員同意經濟學家齊利亞克(StephenZiliak)所言「目前的顯著性檢定、解釋、發表文化必須廢除」,著實引人關注。
p值要多小才夠?
科學研究的目的是描述自然界中的真實情況,科學家使用統計模型推論出某項事實,例如判定某種療法是否比另一種更有效、一組樣本是否與另一組不同。
每個統計模型都依賴一組假設,關乎研究人員如何蒐集並分析資料,以及如何呈現研究結果。
大部份研究使用稱為「虛無假設顯著性檢定」的統計方法來產生p值,這種檢定方法並沒有正視事實,而是「斜著眼看」,因為顯著性檢定只表明某個研究方向值不值得繼續下去。
班傑明表示:「我們進行實驗時想知道假設成立的可能性有多大,但顯著性檢定回答的是另一個更複雜的問題:如果我的假設是錯的,產生這些數據的可能性有多小?」
這種方法有時候行得通,尋找希格斯玻色子就是極端但有效的例子。
物理學家在1960年代首次提出希格斯玻色子,在這個例子中,虛無假設是希格斯玻色子並不存在,對立假設是它一定存在。
歐洲核子研究組織(CERN)大強子對撞機(LHC)的研究團隊進行了多次實驗,得出小到不能再小的p值,意味著如果希格斯玻色子不存在,這個研究結果的發生率是350萬分之一。
這讓虛無假設站不住腳。
接著他們再檢查一次,確定這個結果不是由誤差產生。
格林蘭說:「這個結果在科學上如此重要,並在2013年獲得諾貝爾物理獎肯定,原因就是他們經歷千辛萬苦,確定如此小的值不是任一潛在問題所能產生的。
這麼小的值說明,『缺少希格斯玻色子的粒子物理標準模型』不可能是對的,做到這個程度,結果非常清楚。
」
但其他研究領域達不到物理學實驗的精準度,就像心理學試驗,研究結果的發生率永遠不可能是350萬分之一。
p=0.05代表在多次試驗中,研究結果否定正確假設的機率達到1/20(常被誤認為試驗出錯的機率是5%)。
正因如此,統計學家很久以前就提出「信賴區間」,來標示估計值的誤差大小或不準度。
信賴區間在數學上跟p值有關,p值的範圍是0~1,從1扣掉0.05會得到0.95,即95%,也就是常用的信賴區間。
信賴區間只能概括眾多效果量的假設檢定結果,格林蘭說:「並不代表我們對假設有信心。
」但久而久之,p值和信賴區間的地位都更加穩固,給人絕對正確的錯覺。
.....
【欲閱讀全文或更豐富內容,請參閱〈科學人知識庫〉2020年第216期02月號】
購買本期
#關鍵字:編輯推薦
更多文章
編輯推薦肯亞保育鬥士─理查.李基2017/04/01許夫曼(RichardSchiffman)2016年4月30日,肯亞總統甘耶達(UhuruKenyatta)下令焚燒該國沒收充公的象牙和犀牛角。
這是此類行動規模最大的一次,價值一億美元的105公噸象牙和價值6700萬美元的1.3公噸犀牛角全...編輯推薦暫停呼吸的極限2016/05/20帕克斯(MichaelJ.Parkes)重點提要■是哪裡決定我們能暫時停止呼吸多久?通常我們在腦部或身體耗盡氧氣(明顯的極限)前,就忍不住要呼吸了。
■我們難以探究暫停呼吸的極限,但數十年來的研究顯示,橫膈膜收縮使肺臟擴張,扮演關鍵角色。
■最...科研專輯從台灣到西藏--獅泉河天文台興建紀實2011/12/01李名揚站在海拔5100公尺的阿里山上,空氣稀薄,一直感覺呼吸不順、心跳急促,行動稍微快一點就氣喘吁吁;然而這裡一年有八個月都是萬里無雲的好天氣,對天文學家來說,這真是夢寐以求的寶地!這裡不是台灣的「阿里山」...
活動推薦更多
追蹤科學人
延伸文章資訊
- 1您不得不知的學術小秘訣:正確報告P value的方式 - 意得輯
通常報告P value是最好的方式判別兩個面向是否有顯著性。根據統計學原理,您需要提供P value來判別變數間的關係是否顯著,再者,P value可以區分0.05,0.001 和0.1 三個 ...
- 2統計學:大家都喜歡問的系列-p值是什麼 - Tommy Huang
簡單說p值就是下圖紅色區域的面積值(從黑色線的位置t積分到無窮大),BTW整個分佈的面積值等於1(從負無窮大積分到無窮大)。 如果純粹說p值就只是這樣,很 ...
- 3p值- 維基百科,自由的百科全書
近100年來,統計學家使用p值來描述數據的統計顯著性,這種方法造成了許多人在工作中把統計顯著性的閾值(事先給定值)強行假定為大於等於實際顯著性(實際數據計算出的p值) ...
- 4p 值的陷阱(上):p 值是什麼?又不是什麼? - PanSci 泛科學
我們得到p 值以後,要作統計檢定。我們相約成俗地設定一個顯著水準,叫做α,α 通常都是0.05,有時候大家會嚴格一點用0.01,比較不 ...
- 5實用實證醫學,如何判讀統計檢定— p 值的迷思Statistical ...
使用分析這類資料最常用的費雪確切檢定. (Fisher's exact test) 對上述這組研究資料進行統計. 檢定,結果顯示p 值為0.029,小於0.05 達到統計. 顯著差別,根據這個檢...