p值,顯著有問題 - 科學人雜誌

2024-11-16

文章推薦指數： 80 %

投票人數：10人

p＝0.05代表在多次試驗中，研究結果否定正確假設的機率達到1/20（常被誤認為試驗出錯的機率是5%）。

正因如此，統計學家很久以前就提出「信賴區間」，來 ... 購買本期瀏覽全文前往科學人知識庫編輯推薦 p值,顯著有問題 2020-02-01 丹維斯（LydiaDenworth）學者大力呼籲改革通用的統計方法，會為科學帶來改變嗎？英國遺傳學家兼統計學家費雪（RonaldFisher）在1925年出版《研究工作者的統計方法》，書名看起來沒有成為暢銷書的魅力，不過此書大賣，從此確立了費雪現代統計學之父的地位。

費雪在這本書中探討研究人員該如何把統計檢定應用到數值資料，來得出結論並判斷實驗是否值得進行下去。

他提到一種統計檢定方法，能總結資料與所提出模型的相容性，並產生p值。

他建議研究人員把p＜0.05當成實用標準：「要判斷研究結果的差異是否顯著，以這一點當做門檻很方便。

」他還建議繼續那些p＜0.05的實驗，不要花時間在p＞0.05的實驗上。

由此就誕生了這個概念：p＜0.05等同於所謂的統計顯著性（statisticalsignificance），這是實驗結果「有意義」（significant）的數學定義。

將近一個世紀後，在許多科學領域中p＜0.05成為判斷實驗價值的最高標準，它為學術工作中不可或缺的經費補助與論文發表鋪了路，成為大多數科學結論發表的基礎。

然而連費雪也了解，統計顯著性及p值有非常大的局限。

大部份的局限已在幾十年間逐漸受到科學界認同，心理學家密爾（PaulMeehl）在1978年寫道：「科學研究過度仰賴顯著性檢定很糟糕。

」p值經常遭曲解，而且統計顯著性與實驗有意義並不是同一回事。

此外在許多實驗中，研究人員都可能在有意無意間，因使用不同檢定方法而得出不同的p值。

統計學家兼流行病學家格林蘭（SanderGreenland）說：「像大家常說的，你可以用統計證明任何一件事。

」他是美國加州大學洛杉磯分校榮譽教授，也是呼籲改革的主要人士。

研究人員若只仰賴實驗結果是否具有統計顯著性，通常會得出不正確的推論，把錯的結果解釋成對的、對的結果解釋成錯的。

費雪退休後移居澳洲，有人問他生涯中是否有遺憾？據稱他厲聲說道：「真不該提到0.05。

」過去10年，關於統計顯著性的論戰越演越烈，其中一篇文章稱站不住腳的統計分析基礎為「科學界最卑劣的秘密」，另一篇則舉例說明顯著性檢定「深藏大量瑕疵」。

實驗經濟學、生醫研究等領域深陷具爭議的再現性危機，心理學更是如此，大家發現很多已發表的研究結果無法再現。

惡名昭彰的例子之一是某些姿勢能帶來自信的研究：研究人員聲稱，堅定自信的肢體語言不僅會改變態度，還會改變體內的激素濃度，這個聲稱是根據一篇論文，但後來遭其中一位作者駁斥。

哥倫比亞大學統計學家吉爾曼（AndrewGelman）在部落格寫道，有懷疑論者發表一篇談論氣候變遷經濟學的論文，「後來被糾出的錯誤幾乎和資料點一樣多，不騙你！但這些指正並沒有讓他改變原先的結論。

」吉爾曼經常在部落格斥責做出劣質研究、且不願意承認當中有缺失的研究人員。

他寫道：「嘿，要做純理論工作當然可以，但就不應該用數據轉移我們的注意力。

」統計顯著性這個概念雖然不是研究結果無法再現的唯一因素，但確實是這個問題當中很明顯的環節。

過去三年有上百位研究人員大力呼籲改革，並在頗具聲望的期刊上發表文章或連署，主張重新定義或完全捨棄統計顯著性。

美國統計協會在2016年針對這個問題發佈強硬且不尋常的聲明，主張要「走向不使用p＜0.05的世界」。

協會常務理事華瑟斯坦（RonaldWasserstein）說：「統計顯著性就像在手機交友軟體Tinder向右滑，只表示感興趣。

但不幸的是科學界使用統計顯著性的方式並非如此。

大家會說：『我達到0.05就好了。

』研究就停住了。

」科學家的呼籲是否會帶來改變？南加州大學行為經濟學家班傑明（DanielBenjamin）說：「沒有新鮮事。

我們需要認清，或許這次還是會像以往一樣。

」班傑明也是大聲疾呼改革的人士。

儘管他們對於補救辦法莫衷一是，但有這麼多研究人員同意經濟學家齊利亞克（StephenZiliak）所言「目前的顯著性檢定、解釋、發表文化必須廢除」，著實引人關注。

p值要多小才夠？科學研究的目的是描述自然界中的真實情況，科學家使用統計模型推論出某項事實，例如判定某種療法是否比另一種更有效、一組樣本是否與另一組不同。

每個統計模型都依賴一組假設，關乎研究人員如何蒐集並分析資料，以及如何呈現研究結果。

大部份研究使用稱為「虛無假設顯著性檢定」的統計方法來產生p值，這種檢定方法並沒有正視事實，而是「斜著眼看」，因為顯著性檢定只表明某個研究方向值不值得繼續下去。

班傑明表示：「我們進行實驗時想知道假設成立的可能性有多大，但顯著性檢定回答的是另一個更複雜的問題：如果我的假設是錯的，產生這些數據的可能性有多小？」這種方法有時候行得通，尋找希格斯玻色子就是極端但有效的例子。

物理學家在1960年代首次提出希格斯玻色子，在這個例子中，虛無假設是希格斯玻色子並不存在，對立假設是它一定存在。

歐洲核子研究組織（CERN）大強子對撞機（LHC）的研究團隊進行了多次實驗，得出小到不能再小的p值，意味著如果希格斯玻色子不存在，這個研究結果的發生率是350萬分之一。

這讓虛無假設站不住腳。

接著他們再檢查一次，確定這個結果不是由誤差產生。

格林蘭說：「這個結果在科學上如此重要，並在2013年獲得諾貝爾物理獎肯定，原因就是他們經歷千辛萬苦，確定如此小的值不是任一潛在問題所能產生的。

這麼小的值說明，『缺少希格斯玻色子的粒子物理標準模型』不可能是對的，做到這個程度，結果非常清楚。

」但其他研究領域達不到物理學實驗的精準度，就像心理學試驗，研究結果的發生率永遠不可能是350萬分之一。

p＝0.05代表在多次試驗中，研究結果否定正確假設的機率達到1/20（常被誤認為試驗出錯的機率是5%）。

正因如此，統計學家很久以前就提出「信賴區間」，來標示估計值的誤差大小或不準度。

信賴區間在數學上跟p值有關，p值的範圍是0~1，從1扣掉0.05會得到0.95，即95%，也就是常用的信賴區間。

信賴區間只能概括眾多效果量的假設檢定結果，格林蘭說：「並不代表我們對假設有信心。

」但久而久之，p值和信賴區間的地位都更加穩固，給人絕對正確的錯覺。

..... 【欲閱讀全文或更豐富內容，請參閱〈科學人知識庫〉2020年第216期02月號】購買本期 #關鍵字：編輯推薦更多文章編輯推薦肯亞保育鬥士─理查．李基2017/04/01許夫曼（RichardSchiffman）2016年4月30日，肯亞總統甘耶達（UhuruKenyatta）下令焚燒該國沒收充公的象牙和犀牛角。

這是此類行動規模最大的一次，價值一億美元的105公噸象牙和價值6700萬美元的1.3公噸犀牛角全...編輯推薦暫停呼吸的極限2016/05/20帕克斯(MichaelJ.Parkes)重點提要■是哪裡決定我們能暫時停止呼吸多久？通常我們在腦部或身體耗盡氧氣（明顯的極限）前，就忍不住要呼吸了。

■我們難以探究暫停呼吸的極限，但數十年來的研究顯示，橫膈膜收縮使肺臟擴張，扮演關鍵角色。

■最...科研專輯從台灣到西藏--獅泉河天文台興建紀實2011/12/01李名揚站在海拔5100公尺的阿里山上，空氣稀薄，一直感覺呼吸不順、心跳急促，行動稍微快一點就氣喘吁吁；然而這裡一年有八個月都是萬里無雲的好天氣，對天文學家來說，這真是夢寐以求的寶地！這裡不是台灣的「阿里山」... 活動推薦更多追蹤科學人