p值- 維基百科，自由的百科全書

2024-11-16

文章推薦指數： 80 %

投票人數：10人

近100年來，統計學家使用p值來描述數據的統計顯著性，這種方法造成了許多人在工作中把統計顯著性的閾值（事先給定值)強行假定為大於等於實際顯著性（實際數據計算出的p值） ... p值維基百科，自由的百科全書跳至導覽跳至搜尋此條目可參照英語維基百科相應條目來擴充。

若您熟悉來源語言和主題，請協助參考外語維基百科擴充條目。

請勿直接提交機械翻譯，也不要翻譯不可靠、低品質內容。

依版權協議，譯文需在編輯摘要註明來源，或於討論頁頂部標記{{Translatedpage}}標籤。

p值是[註1]假說檢定中假設虛無假說為真時觀測到至少與實際觀測樣本（英語：Realization(probability)）相同極端的樣本的機率。

[2][3]很小的p值說明在虛無假說下觀測極端結果的發生機率很小。

學術出版物中常常報告假說檢定的p值。

p值由於其確切意義難以掌握而屢遭誤用（英語：misuseofp-values）；對p值的誤用是元科學（英語：metascience）的主要課題。

[4][5] 目次 1簡介 2歷史 3注釋 4參考資料簡介[編輯] p值（pvalue）就是當虛無假說為真時所得到的樣本觀察結果或更極端結果出現的機率。

如果p值很小，說明在虛無假說下極端觀測結果的發生機率很小。

而如果出現了，根據小機率原理，就有理由拒絕虛無假說；p值越小，拒絕虛無假說的理由越充分[3]。

對於一個統計模型的母數空間 Θ {\displaystyle\Theta} ，把母數空間劃分為兩個不相交的集合 Θ 0 {\displaystyle\Theta_{0}} 和 Θ 1 {\displaystyle\Theta_{1}} ，然後給定的隨機樣本 X = ( X 1 , ⋯ , X n ) {\displaystyleX=(X_{1},\cdots,X_{n})} ，想檢定母數在哪一個劃分的空間 H 0 : θ ∈ Θ 0 versus H 1 : θ ∈ Θ 1 {\displaystyleH_{0}:\theta\in\Theta_{0}\quad{\text{versus}}\quadH_{1}:\theta\in\Theta_{1}} 構造的拒絕域是對於一個可以探測母數 θ {\displaystyle\theta} 的統計量 T ( X ) {\displaystyleT(X)} ，定義拒絕域為該統計量大於閾值 c {\displaystylec} 的形式： R T = { X : T ( X ) > c } {\displaystyleR_{T}=\{X:T(X)>c\}} 那麼，一個擁有拒絕域是 R T {\displaystyleR_{T}} 的假說檢定方法，則該檢定的檢定力函數被定義為 β T ( θ ) = P θ ( X ∈ R T ) {\displaystyle\beta_{T}(\theta)=\mathbb{P}_{\theta}(X\inR_{T})} 一個檢定的檢定水準(size)是犯型一錯誤機率的上確界 α = sup θ ∈ Θ 0 β T ( θ ) {\displaystyle\alpha=\sup_{\theta\in\Theta_{0}}\beta_{T}(\theta)} 。

我們稱一個檢定具有顯著水準 α 0 {\displaystyle\alpha_{0}} ，如果它的檢定水準小於等於 α 0 {\displaystyle\alpha_{0}} ，即 α = sup θ ∈ Θ 0 β T ( θ ) ≤ α 0 {\displaystyle\alpha=\sup_{\theta\in\Theta_{0}}\beta_{T}(\theta)\leq\alpha_{0}} 假定對於所有小數 α 0 ∈ ( 0 , 1 ) {\displaystyle\alpha_{0}\in(0,1)} ，存在一個顯著水準為 α 0 {\displaystyle\alpha_{0}} 的檢定，其拒絕域是 R α 0 , T {\displaystyleR_{\alpha_{0},T}} ，那麼p值的數學定義是滿足包含關係 T ( X ) ∈ R α 0 , T {\displaystyleT\left(X\right)\inR_{\alpha_{0},T}} 的最小 α 0 {\displaystyle\alpha_{0}} p-value = inf { α 0 : T ( X ) ∈ R α 0 , T } ( ≤ α 0 ) {\displaystyle{\text{p-value}}=\inf\left\{\alpha_{0}:T\left(X\right)\inR_{\alpha_{0},T}\right\}~(\leq\alpha_{0})} 也就是說p值是被定義為拒絕虛無假說 H 0 {\displaystyleH_{0}} 的最低顯著水準。

p值是基於數據的檢定統計量算出來的機率值。

如果p值是5%，也就是說，如果以此為界拒絕虛無假說的話，那麼只有5%的可能性犯錯。

虛無假說是對的，但卻拒絕了，這是錯誤的。

所以說p值越大，拒絕虛無假說的理由越不充分。

如果p值接近於0，拒絕虛無假說，那麼幾乎不可能犯錯，於是說明數據是極其不符合虛無假說。

換言之，是假說檢定中虛無假說成立或表現更嚴重的可能性。

p值若與選定顯著水準（0.05或0.01）相比更小，則虛無假說會被否定而不可接受。

然而這並不直接表明虛無假說正確。

通常在連續分布的假設下，p值是一個服從[0,1]區間均勻分布的隨機變數，在實際使用中因樣本等各種因素存在不確定性。

近100年來，統計學家使用p值來描述數據的統計顯著性，這種方法造成了許多人在工作中把統計顯著性的閾值（事先給定值)強行假定為大於等於實際顯著性（實際數據計算出的p值），於是強行拒絕虛無假說，做出了很多不科學的決策。

p值產生的結果可能會帶來爭議[6]。

2018年，由72位科學家組成的小組在《自然·人類行為》上發表了一篇名為《重新定義統計意義》的評論文章，贊同將統計顯著性的閾值從0.05調整到0.005。

這樣就使得科研人員不能強行讓如此小的統計顯著性閾值大於實際數據計算出來的p值。

這篇文章的主要作者班傑明認為：「這是一個不完美的短期解決方案，但可以立即實施。

我擔心的是，如果我們不立即做這事，我們將失去變革的動力，而我們最終將花費所有的時間爭論理想化的解決方案。

」在科學研究的許多領域，p值小於0.05被認為是確定實驗數據可靠性的金標準。

這個標準支持了大多數已發表的科學結論，違反這一標準的論文很難發表，而且也很難得到學術機構的資助。

然而，即使是費雪也明白，統計顯著性的概念以及支撐它的p值具有相當大的局限性。

幾十年來，科學家也逐漸意識到了這些局限性。

歷史[編輯] p值的計算可以追溯到18世紀，當時計算的是人類出生性別比，並與男女出生機率相同的虛無假說相比的統計學差異[7]。

約翰·阿布斯諾特（英語：JohnArbuthnot）於1710年研究了這一問題[8][9][10][11]，並檢查了倫敦從1629年到1710年的82年中每一年的出生記錄。

阿布斯諾特觀察到每一年在倫敦出生的男嬰數都超過了女嬰數。

考慮到虛無假說是男性或女性出生機率相同，這一觀察結果出現的機率是1/282，或約為4,836,000,000,000,000,000分之1；這個計算得到的值，用現代術語說，就是P值。

這個數字小得驚人，使阿布斯諾特認為這一結果的出現不是由於機率，而是由於神的旨意。

「由此可見，支配一切的是藝術，而不是機率」。

用現代術語來說，他在p=1/282的顯著水準上拒絕了男女出生可能性相同的虛無假說。

1925年，英國遺傳學家兼統計學家羅納德·愛爾默·費雪出版了《研究者的統計方法》（StatisticalMethodsforResearchWorkers）一書。

這本書的書名在當時看起來並不會「暢銷」，但實際上這本書卻取得了巨大的成功，而且還使費雪成為現代統計學之父。

在這本書中，他著眼於研究人員如何將統計檢定理論應用於實際數據，以便基於數據得出他們所發現的結論。

當使用某個統計假設來做檢定時，該檢定能夠概述數據與其假設的模型之間的兼容性，並生成一個p值。

費雪建議，作為一個方便的指南，研究人員可以考慮將p值設為0.05。

對於這一點，他專門論述道：「在判斷某個偏差是否應該被認為是顯著的時候，將這一閾值作為判斷標準是很方便的。

」他還建議，p值低於該閾值的結論是可靠的，因此不要把時間花在大於該閾值的統計結論上。

因此，費雪的這一建議誕生了p小於0.05等價於所謂的統計顯著性，這成了「顯著」的數學定義。

注釋[編輯] ^p值是否採用斜體、大寫、連字符在各文獻格式中有所不同。

AMA格式（英語：AMAstyle）使用"Pvalue"；APA格式使用"pvalue"；美國統計協會使用"p-value".[1] 參考資料[編輯] ^存档副本(PDF).[2021-02-01].（原始內容存檔(PDF)於2017-10-10）. ^Aschwanden,Christie.NotEvenScientistsCanEasilyExplainP-values.FiveThirtyEight.2015-11-24[11October2019].（原始內容存檔於2019-09-25）. ^3.03.1Wasserstein,RonaldL.;Lazar,NicoleA.TheASA'sStatementonp-Values:Context,Process,andPurpose.TheAmericanStatistician.7March2016,70(2):129–133[2021-02-01].doi:10.1080/00031305.2016.1154108 .（原始內容存檔於2019-06-30）. ^Hubbard,Raymond;Lindsay,R.Murray.WhyPValuesAreNotaUsefulMeasureofEvidenceinStatisticalSignificanceTesting.Theory&Psychology.2008,18(1):69–88.doi:10.1177/0959354307086923. ^Ioannidis,JohnP.A.;etal.Amanifestoforreproduciblescience(PDF).NatureHumanBehaviour.January2017,1:0021[2021-02-01].S2CID 6326747.doi:10.1038/s41562-016-0021.（原始內容存檔(PDF)於2019-09-24）（英語）. ^DenworthLydia,張慧銘(譯).P值危机:统计学需要一场变革(PDF).環球科學.2019,21[2020-02-17].（原始內容存檔(PDF)於2020-02-17）. ^Brian,Éric;Jaisson,Marie.Physico-TheologyandMathematics(1710–1794).TheDescentofHumanSexRatioatBirth.SpringerScience&BusinessMedia.2007:1–25.ISBN 978-1-4020-6036-6. ^JohnArbuthnot.AnargumentforDivineProvidence,takenfromtheconstantregularityobservedinthebirthsofbothsexes(PDF).PhilosophicalTransactionsoftheRoyalSocietyofLondon.1710,27(325–336):186–190[2021-09-30].S2CID 186209819.doi:10.1098/rstl.1710.0011 .（原始內容(PDF)存檔於2021-06-03）. ^Conover,W.J.,Chapter3.4:TheSignTest,PracticalNonparametricStatisticsThird,Wiley:157–176,1999,ISBN 978-0-471-16068-7 ^Sprent,P.,AppliedNonparametricStatisticalMethodsSecond,Chapman&Hall,1989,ISBN 978-0-412-44980-2 ^Stigler,StephenM.TheHistoryofStatistics:TheMeasurementofUncertaintyBefore1900.HarvardUniversityPress.1986:225–226.ISBN 978-0-67440341-3. 閱論編統計學敘述統計學連續變數機率分布集中趨勢平均數（平方 ·算術 ·幾何 ·調和 ·算術-幾何 ·幾何-調和 ·希羅／平均數不等式）·中位數·眾數離散程度全距·變異係數·百分位數·四分位距·四分位數·標準差·變異數·平均差·標準分數·柴比雪夫不等式·吉尼係數分布形態（英語：Shapeofthedistribution）中央極限定理·動差（偏態·峰態）離散變數機率次數（英語：Countdata）·列聯表（英語：Contingencytable）推論統計學和假說檢定推論統計學信賴區間·區間估計（英語：Intervalestimation）·顯著性差異·元分析·貝氏推論實驗設計母體·抽樣·重抽樣（刀切法·自助法·交叉驗證）·重複（英語：Replication(statistics)）·阻礙·靈敏度和特異度·區集（英語：Blocking(statistics)）·缺失數據樣本量（英語：Samplesize）標準誤·虛無假說·對立假說·型一錯誤與型二錯誤·檢定力·效應值常規估計貝氏推論·區間估計（英語：Intervalestimation）·最大概似估計·最小距離估計（英語：Minimumdistanceestimation）·動差估計·最大間距假說檢定Z檢定·司徒頓t檢定·F檢定·卡方檢定·Wald檢定（英語：Waldtest）·曼-惠特尼檢定（英語：Mann–WhitneyUtest）·秩和檢定生存分析生存函數·乘積極限估計量·對數秩和檢定·失效率·危險比例模式相關及迴歸分析相關性干擾因素·皮爾森積動差相關係數·等級相關（英語：Rankcorrelation）(斯皮爾曼等級相關係數·肯德等級相關係數（英語：Kendalltaurankcorrelationcoefficient）)·自由度·誤差和殘差線性迴歸線性模型（英語：Linearmodel）·一般線性模型·廣義線性模型·簡單線性迴歸（英語：Simplelinearregression）·普通最小平方法·貝葉斯迴歸（英語：Bayesianlinearregression）·變異數分析·共變異數分析（英語：Analysisofcovariance）非線性迴歸無母數迴歸模型（英語：Nonparametricregression）·半母數迴歸模型（英語：Semiparametricregression）·邏輯迴歸統計圖形圓餅圖·長條圖·雙標圖·箱形圖·管制圖·森林圖（英語：Forestplot）·直方圖·分位圖·趨勢圖·散布圖·莖葉圖（英語：Stem-and-leafdisplay）·雷達圖（英語：Radarchart）·示意地圖其他回應過程效度·統計誤用分類主題共享資源專題取自「https://zh.wikipedia.org/w/index.php?title=P值&oldid=71666890」分類：假設檢定隱藏分類：CS1英語來源(en)需要從英語維基百科翻譯的條目導覽選單個人工具沒有登入討論貢獻建立帳號登入命名空間條目討論臺灣正體不转换简体繁體大陆简体香港繁體澳門繁體大马简体新加坡简体臺灣正體查看閱讀編輯檢視歷史更多搜尋導航首頁分類索引特色內容新聞動態近期變更隨機條目資助維基百科說明說明維基社群方針與指引互助客棧知識問答字詞轉換IRC即時聊天聯絡我們關於維基百科工具連結至此的頁面相關變更上傳檔案特殊頁面靜態連結頁面資訊引用此頁面維基數據項目列印/匯出下載為PDF可列印版其他專案維基共享資源其他語言 العربيةAsturianuCatalàکوردیČeštinaDeutschΕλληνικάEnglishEspañolEestiفارسیSuomiFrançaisGalegoעבריתहिन्दीBahasaIndonesiaItaliano한국어മലയാളംNederlandsNorskbokmålPolskiPortuguêsРусскийSimpleEnglishСрпски/srpskiSundaSvenskaไทยTürkçeУкраїнськаاردو粵語編輯連結