42304 由「太陽從西邊升起」談p 值的意義 - 中央研究院
文章推薦指數: 80 %
以下我想討論的是, p 值其實是源自最基礎的邏輯論證, 有它相當「直觀」的解釋, ... 因為0 不可能等於1, 所以假設不正確, 所以, 其相反假說「最大的正整數不存在」才是 ...
42304由「太陽從西邊升起」談p值的意義
數學傳播
傳播數學知識.促進數學教育
切換
首頁
歷年季刊
季刊公告▾
稿約
訂閱資訊
勘誤
詩歌散文
數播線上
專訪
聯絡我們
Search
由「太陽從西邊升起」談p值的意義
連怡斌,
2018年9月(167)
PDF
統計學
P值
假設檢定(hypothesistesting)
貝氏機率
信賴區間(confidenceinterval)
最近國際學術界又開始對所謂的p值做一連串的批判;著名的社會學學術期刊《政治分析》宣布在2018年起禁用p值,原因之一是p值無法對所給定的model
給予直觀的支持證據。
(參考http://www.sohu.com/a/218689757_119719)。
以下我想討論的是,p值其實是源自最基礎的邏輯論證,有它相當「直觀」的解釋,
可惜大多統計的教科書只強調其計算和機率分配的意義,其他領域學者常誤解其意義,而終究導致這統計學的「命根子」被排斥。
何謂p值?
在科學研究上,我們常面對這樣的判別需求:有某個(新)理論是研究者認為可能是真的(例如:某種新研發出的降血壓的藥和傳統的藥相比,有不同的藥效)。
姑且稱之為假說$H_1$。
而其反面,也就是和$H_1$互為補集(complement)的說法就稱之為$H_0$;
$H_0$:新藥和傳統藥的藥效相同,
$H_1$:新藥和傳統藥的藥效不同。
研究者要如何說服同儕或大眾他認為的$H_1$是正確的呢?
首先他透過試驗或調查後,得到某研究結果A。
接著算出,在$H_0$為真的前提下,得到結果A的機率,這就是所謂的p值。
若p值很小,研究者就推論:「$H_0$這前提不太可能為真」,所以「$H_1$應該是真」。
那p值要多小才算很小呢?
其實沒有定論,但大多數接受「小於0.05就算很小」這樣的規則。
其實一個直覺的問題馬上跑出來:為什麼要繞一圈,靠說「$H_0$不太可能為真」來說明「$H_1$應該是真」?
幹嘛不直接以機率衡量$H_1$真實的程度?
由上例可看出一現實的困難:在$H_1$前提下要算出結果A的機率相對於p值要困難很多,因為所謂「藥效不同」有太多種不同法;藥效好很多跟好一點點都稱為不同,
在這些不同的情況要算得到結果A的機率需其他條件;但「$H_0$:相同」下就很直接。
不過用計算上的理由來為p值辯護,可能較難說服其他領域的學者。
本文要提的,是p值事實上是源自希臘亞里士多德所發展出來的邏輯辯證方法。
太陽從西邊升起
一些連續劇常會出現類似以下的一幕:丈夫跟妻子發誓:「如果我有做這件事,太陽就從西邊升起!」
當然,丈夫有沒有做這件事實在跟太陽沒半點關係;但他其實真正要表達的是:「因為太陽不可能從西邊升起,所以我沒有做這件事!」
換成邏輯的論證方式,第一句話是由論述$p$:「我有做這件事」推論到論述$q$:「太陽就從西邊升起」;表示成$p\toq$(若$p$則$q$)。
而學過基礎邏輯的都知道,和它完全相等的說法是$\simq\to\simp$(若非$q$則非$p$),也就是第二句話:「因為太陽不可能從西邊升起,所以我沒有做這件事!」
現在用統計假說檢定的方式來看,因為妻子懷疑「丈夫有做這件事」,所以我們將妻子的假說訂為$H_0$,而其相反訂為$H_1$:
$H_0$:丈夫有做這件事,
$H_1$:丈夫沒有做這件事。
依丈夫的論述,若$H_0$這個「因」的假設是正確的,那就會發生「太陽從西邊升起」這樣的果;但因發生這樣結果不可能(或者說,機率為零),所以
$H_0$的假設不可能對,換言之那就是$H_1$一定對。
這,不就是我們熟知的「反證法」,或稱「歸謬證法」或「矛盾證法」嗎?!
說到這裡,如果您質疑我「說半天還是沒說丈夫到底做了什麼事」,那就真的搞錯重點了。
我要說的是,上例在假說檢定中,p值就是:「太陽就從西邊升起」的機率
(太太的懷疑是正確的前提下);因為p值為零,所以$H_0$的假說被推翻而$H_1$成立。
所以p值根本就是我們日常生活中以別種方式常常在用的推論工具!
零與一
不久前我一位律師朋友在FB上有感而發:
「在科學上,你只能證明某件事存在,你永遠沒辦法證明一件事不存在;不存在的意思,只是現在還沒被發現$\cdots$」。
我回應他:
「在科學上,你絕對有辦法證明一件事不存在的,而且這類論證在日常生活中還常常在用$\cdots$」(事實上律師用最多!)
舉個高中學過的問題:「最大的正整數存不存在?」
大家都知道它不存在,但你如何論述?依照那位律師朋友的說法,「你認為不存在,只是你還沒找到而已啊!」幸好我們有上述的反證法:
假設最大的正整數存在,令它為$N$。
由此我們可推論,
$N+1$仍為正整數,
任何整數加1後不可能變小,所以$N+1\geN$。
因$N$為最大的正整數,所以$N\geN+1$。
由上得到$N=N+1$,移項後$0=1$。
因為0不可能等於1,所以假設不正確,所以,其相反假說「最大的正整數不存在」才是正確。
再度用「假說檢定」的觀念來陳述
$H_0$:最大的正整數存在,
$H_1$:最大的正整數不存在。
若$H_0$這個「因」的假設是正確的,那就會發生「$0=1$」這樣的果;但因發生這樣結果的機率(即p值)為零,所以「存在」的假設不可能對,換言之那就是$H_1$一定對。
統計歸謬證法
在社會或生物科學領域中,通常在$H_0$假設下所得的「果」機率很難為零,了不起就是「很小很小」而已。
第一例中,假如丈夫也不是那麼肯定他一定沒做,那他可能換種說法:
「如果我有做這件事,出去就給車子撞死!」
Well,出門會不會發生車禍這是難講一定不會發生,但機率肯定很小,就說是小於萬分之一好了。
依統計「假說檢定」的方式論述:
若$H_0$「丈夫有做這件事」的假設是正確的,就會發生「出去就給車子撞死」這樣的果;但因發生這樣結果不「太」可能(機率小於萬分之一),
所以$H_0$的假設不「太」可能對,換言之那就是$H_1$「非常可能」對。
相對於前面兩例的「數學反證法」,這種論述我們可稱之為「統計反證法」或「統計歸謬證法」;而p值就是「出去就給車子撞死」的機率(在$H_0$前提下)。
再舉一個相當直觀的例子。
莊家提供了一其號稱公正(正反機率各半)的銅板和賭客對賭丟銅板的遊戲:正面賭客贏,反面賭客輸。
結果連玩10次竟然都是反面,賭客便控訴莊家的銅板不公正。
您認為賭客的控訴合理性多高?
莊家當然可辯稱:說不定再多丟十次,結果會都是正面,那不就公正了嗎?
將兩人的爭執以假說檢定的方式呈現:
$H_0$:銅板公正,
$H_1$:銅板不公正。
那有沒有可能銅板是公正($H_0$正確),只是賭客運氣不好?
當然有可能。
只是,這麼「背」的運氣發生機率是多少?
簡單計算下為$(1/2)^{10}=1/1024$(小於千分之一)。
也就是說若$H_0$正確,結果發生了機率很小(小於千分之一)的情形,所以賭客推論:銅板很可能不公正。
若這樣的推論,您認為說服力不夠強(千分之一也不小啊),那考慮若賭客連擲30次皆反面的情形,也就是「若銅板是公正,發生這情形的機率近乎不可能」
($(1/2)^{30}$小於億分之一),這樣「證明」銅板有問題的說服力可能大多數人認為夠強了!反過來說:若賭客連擲3次皆反面,就指控不公正,這樣的說服力就較前者差,
因為發生這情形的機率「尚有八分之一」($(1/2)^3$)。
在這例子中,不管擲出幾個連續反面,你永遠無法像證明無最大自然數的例子一樣,得到絕對為零的p值。
簡而言之,數學反證法,是將預期要被推翻的說法放在$H_0$,而其相法的說法放在$H_1$;當$H_0$果真被推翻時,等同於支持了$H_1$的正確性。
而何時$H_0$可被被推翻?就是
當$H_0$衍伸或推論出來的結果為絕不可能發生的事(如「太陽從西邊升起」,或「$0=1$」)時,就果斷推論$H_0$絕對錯誤(即,$H_1$絕對正確)。
而統計反證法和數學反證法唯一的不同,是考量現實世界的複雜性,將話說的委婉些:
當$H_0$衍伸或實驗出來的結果為不太可能發生的事(如「公正銅板連擲30次皆反面」)時,就推論$H_0$非常可能是錯誤(即,$H_1$很可能正確)。
而p值,只是$H_0$衍伸或實驗出來之結果其發生的機率!
換句話說,它是如
「太陽從西邊升起」,或「公正銅板連擲30次皆反面」的機率,而非「丈夫有沒做這件事」或「銅板是否公正」的機率。
而我前面曾提到,這種反證法,倒是律師/法官們最常用。
對某個命案的被告嫌疑犯,其審判結果只能是以下兩者其中之一:
$H_0$:被告無罪,
$H_1$:被告有罪。
檢察官必需提出有力的證據支持$H_1$,才能說服法官判其有罪。
原則上,被告無須證明自己無罪,這是無罪推定論的原則。
假設警方發現命案現場兇手留下的血跡,經DNA比對,和被告「相當相似」。
如何個相似法呢?
這裡講「基因相似度」是沒太大意義的,因為隨便找一同性別的白人和黑人,其基因相似度就高達99.99%,那「更相似」是指
99.999%還是99.9999%?
較科學的說法,是反過來講:每一百萬人的基因中,才會有一個人其基因湊巧和兇手如此相似;所以如果被告是無辜的($H_0$正確),那他/她純粹是運氣差,DNA
和兇手湊巧如此相似的機率為百萬分之一。
也就是p值為百萬分之一。
在這種情況下,法官要有一個閥值:若這「誤判的機率」(即p值)真的夠小,那就判他有罪吧!
你可以說為避免冤枉好人,這閥值要很小,如千萬分之一或十億分之一才判有罪,但不能說一定要為零才能判有罪。
因為除非你就不要相信DNA提供的證據,否則這證據誤判的機率跟擲銅板的例子一樣,只可能很小很小,但永遠不會為零。
不要p值之後呢?
醫學期刊或社會學期刊認為p值無法對給定的模式(也就是假說本身如$H_0$或$H_1$)直接支持的證據,這也是實情:p值的確無法直接描述$H_0$或$H_1$為正確的機率。
但問題是,也沒有其他有根據的值可以來描述這件事啊!
在很多情況下,$H_0$或$H_1$的正確與否,根本無機率可言,例如「丈夫有沒做這件事」或「被告是否犯案」是已發生的事,他要嗎就有,要嗎就沒有,機率不是0就是1。
如果一定要賦予這假說一個機率,那可能只有利用貝氏機率的方法。
但用貝氏方法的前提,是要能有足供信賴的priorinformation,如先驗機率等,但這不在本文範疇,不在此詳談,我只能說在很多研究上這是個不易擁有的奢侈品。
至於所謂的其他替代方式,如「信賴區間」,如果是熟知統計估計與統計檢定的機率基礎的人,就瞭解其實兩者是基於同樣的機率架構,只是換個說法而已。
事實上個人感覺,「信賴區間」表面上看起來較直觀,但實際意義還較p值更難解釋些。
數年前台灣高中教材放入信賴區間,就把高中老師們弄得雞飛狗跳,不知如何教才對!最後不得已還是將它拿掉。
反之,如果你能接受反證法是個推論邏輯命題正確與否的好方法,那就比較容易接受「p值還算是個相對不錯的評估工具」。
但重點是,統計教師們要能將p值跟這常用的邏輯脈絡做連結,說明當初紐曼(Neyman)及皮爾生(Pearson)在
1933提出p值時的觀點,是相當符合人類思考方式的。
如此或有可能說服其他領域的學界重新接受p值的價值,並減少對它的誤解。
---本文作者為國立彰化師範大學統計資訊所及數學系教授---
fiber_new
近期簡介
前期簡介
歷年季刊
✏
稿約
訂閱及編者訊息
延伸文章資訊
- 1華樂絲學術期刊發表英文撰寫季刊
F(1, 144), p < .001, and also a significant impact of listening to ... 子一起出現,例如:等於、大於、小於的符號。 ... ...
- 2p值- 維基百科,自由的百科全書
通常在連續分布的假設下,p值是一個服從[0,1]區間均勻分布的隨機變數,在實際使用 ... 性的閾值(事先給定值)強行假定為大於等於實際顯著性(實際數據計算出的p值), ...
- 3p值等於1 - 軟體兄弟
信賴區間在數學上跟p值有關,p值的範圍是0~1,從1扣掉0.05會得到0.95,即95%,也 ... ,p值(p value)就是當原假設為真時所得到的樣本觀察結果或更極端結果出現的機率。 ..
- 4統計檢定、P值、信賴區間和檢定力- 錯誤解釋的指南
因此,除非點估計值(觀察到的相關性)完全等於虛無值,這是一個自P > 0.05一項研究發現“無關聯”或“沒有證據的”效果的錯誤歸納。如果虛無P 值小於 1 ,則數據中必須 ...
- 5p-value、顯著水準、Type I error, Type 2 error @ 凝視 - 隨意窩
(p為在H0為真的前提下,能得到這批樣本的機率)(p值越小,棄卻H0的理由越充分)在 ... 檢定結果卻拒絕H0,這種錯誤就是型一錯誤(口訣:type 1 er @ 資管,金融,財經, ...