三角學

[拼音]:jiashe jianyan

[英文]:hypothesis testing

又稱統計假設檢驗,是一種基本的統計推斷形式,也是數理統計學的一個重要的分支。“假設”是指關於總體分佈的一項命題。例如,一群人的身高服從正態分佈N(μ,σ2),則命題“均值μ≤1.70(米)”是一個假設。又如,有一批產品,其廢品率為p,則“p≤0.03”這個命題也是一個假設。假設是否正確,要用從總體中抽出的樣本進行檢驗,與此有關的理論和方法,構成假設檢驗的內容。

A

是關於總體分佈的一項命題,所有使命題

A

成立的總體分佈構成一個集合h0,稱為原假設(常簡稱假設)。使命題

A

不成立的所有總體分佈構成另一個集合h1,稱為備擇假設。如果h0可以通過有限個實引數來描述,則稱為引數假設,否則稱為非引數假設(見非引數統計)。如果h0(或h1)只包含一個分佈,則稱原假設(或備擇假設)為簡單假設,否則為複合假設。對一個假設h0進行檢驗,就是要制定一個規則,使得有了樣本以後,根據這規則可以決定是接受它(承認命題

A

正確),還是拒絕它(否認命題

A

正確)。這樣,所有可能的樣本所組成的空間(稱樣本空間)被劃分為兩部分HA和HR(HA的補集),當樣本x∈HA時,接受假設h0;當x∈HR時,拒絕h0。集合HR常稱為檢懸a href='http://www.baiven.com/baike/222/323577.html' target='_blank' >櫚木芫潁琀A稱為接受域。因此選定一個檢驗法,也就是選定一個拒絕域,故常把檢驗法本身與拒絕域HR等同起來。

顯著性檢驗

有時,根據一定的理論或經驗,認為某一假設h0成立,例如,通常有理由認為特定的一群人的身高服從正態分佈。當收集了一定資料後,可以評價實際資料與理論假設h0之間的偏離,如果偏離達到了“顯著”的程度就拒絕h0,這樣的檢驗方法稱為顯著性檢驗。怎樣去規定什麼時候偏離達到顯著的程度?通常是指定一個很小的正數α(如0.05,0.01),使當h0正確時,它被拒絕的概率不超過α,稱α為顯著性水平。這種假設檢驗問題的特點是不考慮備擇假設,就上例而言,問題可以說成是考慮實驗資料與理論之間擬合的程度如何,故此時又稱為擬合優度檢驗。擬合優度檢驗是一類重要的顯著性檢驗。

K.皮爾森在1900年提出的ⅹ2檢驗是一個重要的擬合優度檢驗。設原假設h0是:“總體分佈等於某個已知的分佈函式F(x)”。把(-∞,∞)分為若干個兩兩無公共點的區間I1,I2,…,Ik,對任一個區間

,以vj記大小為n的樣本X1,X2,…,Xn中落在Ij內的個數,稱為區間Ij的觀測頻數,另外,求出Ij的理論頻數

(對j=1,2,…,k都這樣做),再算出由下式定義的ⅹ2統計量

皮爾森證明了:若

對j=1,2,…,k,則當n→∞時,ⅹ2的極限分佈是自由度為k-1的ⅹ2分佈。於是在樣本大小n相當大時,從ⅹ2分佈表可查得ⅹ2分佈的上α分位數(見概率分佈)ⅹ

(k-1)。由此即得檢驗水平為α的拒絕域:{ⅹ2≥ⅹα(k-1)}。如果原假設h 0為:總體服從分佈族{Fθ,θ∈嘷},式中θ為未知引數,嘷為θ的所有可能取值的集合(稱引數空間),也可得到類似的拒絕域,只要在計算理論頻數vj時,將所包含的未知引數θ用適當的點估計代替,即可計算 ⅹ2統計量。但此時極限分佈的自由度為 k-Л-1,式中Л為θ中的獨立引數的個數。柯爾莫哥洛夫檢驗(見非引數統計)也是一個重要的擬合優度檢驗方法。

奈曼-皮爾森理論

J.奈曼與 E.S.皮爾森合作,從1928年開始,對假設檢驗提出了一項系統的理論。他們認為,在檢驗一個假設h0時可能犯兩類錯誤:第一類錯誤是真實情況為h0成立(即θ∈嘷0),但判斷h0不成立,犯了“以真為假”的錯誤。第二類錯誤是h0實際不成立(即θ∈嘷1),但判斷它成立,犯了“以假為真”的錯誤(見表

)。這裡嘷0,嘷1分別是使假設h0成立或不成立的θ的集合,顯然嘷=嘷0+嘷1。當θ∈嘷0,樣本X(即X1,X2,…,Xn組成的向量)∈HR,其概率

P

θ(X∈HR)就是犯第一類錯誤的概率α;當θ∈嘷1,樣本X∈HA,其概率

就是犯第二類錯誤的概率β。通常人們不希望輕易拒絕h0,例如工廠的產品一般是合格的,出廠進行抽樣檢查時不希望輕易地被認為不合格,於是在限定犯第一類錯誤的概率不超過某個指定值α(稱為檢驗水平)的條件下,尋求犯第二類錯誤的概率儘可能小的檢驗方法。為了描述檢驗的好壞,稱θ的函式

P

θ(X∈HR)為檢驗的功效函式。例如上述產品檢驗的例子中,所採用的檢驗可以是:當樣品中的廢品個數超過一定限度時,認為該批產品不合格,否則就認為合格。這個檢驗的功效函式有圖示的形狀,圖

中的 p0、p1、α、β根據需要選定。這種圖形清楚地描述了犯兩類錯誤的概率。

優良性準則

基於奈曼-皮爾森理論及統計決策理論,可以提出一些準則,來比較為檢驗同一假設而提出的各種檢驗。較重要的準則有:

一致最大功效(UMP)準則

欲檢驗h0:θ∈嘷0,h1:θ∈嘷1;當給定檢驗水平α後,在所有滿足

的可供選擇的檢驗HR中,是否有一個最好的,亦即:是否存在拒絕域H

,使得對於所有θ∈嘷1及一切檢驗水平為α的H

皆有

。若這樣的檢驗存在,則稱HR為檢驗水平α的一致最大功效檢驗,簡稱UMP檢驗。奈曼與皮爾森在1933年提出了著名的奈曼-皮爾森引理。這是對簡單假設尋求UMP檢驗的一個構造性的結果,即此時似然比檢驗就是UMP檢驗。對某些複合假設也找到了 UMP檢驗,但並不是所有情況都存在 UMP檢驗。因此有必要在對檢驗作某些限制下尋找最大功效檢驗或建立另外一些優良性準則。

無偏性準則

要求檢驗在備擇假設h1成立時作出正確判斷的概率不小於檢驗水平α,這就是說在h0不成立時拒絕h0的概率要不小於在h0成立時拒絕h0的概率,這種性質稱為無偏性,具有這種性質的檢驗稱為無偏檢驗。顯然,如果在無偏檢驗中存在一致最大功效檢驗就稱為一致最大功效無偏檢驗(簡稱UMPU檢驗)。UMP檢驗不存在時,仍可能有UMPU檢驗存在。例如正態總體中方差未知時,為檢驗均值μ=μ0的t檢驗就是UMPU檢驗,但不是UMP檢驗。

因為假設檢驗在統計決策理論中是一種特殊的統計決策問題,兩類錯誤影響可用特殊損失來表示。例如選取特殊的損失函式,使正確判斷時損失為零,錯判時損失為1。它就可歸結為犯第一類錯誤的概率α和犯第二類錯誤的概率β。這同用功效函式

P

θ(X∈HR)來敘述是一致的。因此把統計決策理論中容許性、同變性、貝葉斯決策、最小化最大等概念引進來,而得到容許檢驗、同變檢驗、貝葉斯檢驗和最小化最大檢驗。在同變檢驗限制下,又可以建立一致最大功效同變檢驗的概念。這些準則又可作為假設檢驗的優良性準則,從而擴大了假設檢驗的內容。

尋求在一定準則下的最優檢驗是很困難的,何況這種最優檢驗有時並不存在。於是提出了若干依據直觀的推理法,其中最重要的是似然比法。

似然比檢驗

運用與最大似然估計(見點估計)類似的原理,可得到似然比檢驗法。設樣本X的分佈密度即似然函式為l(尣,θ),θ∈嘷,欲檢驗的假設為h0:θ∈嘷0,稱

為似然比。顯然0≤

(尣)≤1,當

(尣)太小時就拒絕h0,否則接受h0,其臨界值λ0由檢驗水平α 和

(尣)在h0成立時的分佈確定,即

。然而,在一般情況下,尋求

(尣的精確分佈並不容易。1938年S.S.威爾克斯證明了:在相當廣泛的條件下,-2ln

(尣)是漸近ⅹ2分佈的, 這就為大樣本的似然比檢驗提供了實行的可能。

用似然比法匯出的重要檢驗有:

U 檢驗

若總體遵從正態分佈N(μ,σ2),其中σ已知,X=(X1,X2,…,Xn)是從總體中抽取的簡單隨機樣本,記

,則

遵從標準正態分佈N(0,1),於是可考慮對μ的以下幾種假設

的檢驗,其中μ0是給定的常數,α為檢驗的水平,uα為標準正態分佈的上α分位數。上述檢驗稱為U 檢驗。

t檢驗

若總體服從正態分佈N(μ,σ2),但σ未知,記

,則t=

遵從自由度為n-1的t分佈,可對μ有以下的水平為α的檢驗

,其中tα為自由度為n-1的t分佈的上α分位數。這些檢驗稱為t檢驗。

F 檢驗

若X=(X1,X2,…,

)及Y=(Y1,Y2,…,

)分別為來自正態總體N(μ1,σ娝)及N(μ2,σ娤)的簡單隨機樣本,記

,則

遵從自由度為n1-1,n2-1的F分佈,對比較σ娝與σ娤的假設有以下的水平為α的檢驗

,其中Fα為自由度為(n1-1,n2-1)的F分佈的上α分位數。這些檢驗稱為F檢驗,在方差分析中有廣泛的應用。

參考書目

E.L.Lehmann,Testing Statistical Hypothesis,John Wiley & Sons, New York, 1959.

參考文章

假設檢驗和總體均數區間估計有何聯絡?統計學何謂假設檢驗?其一般步驟是什麼?統計學假設檢驗與區間估計有何區別及聯絡?統計學假設檢驗的目的和意義是什麼?統計學假設檢驗有何特點?統計學假設檢驗的理論依據是什麼?(或者問基本思想)統計學比較兩個獨立樣本頻率分佈的χ2檢驗,和比較兩個配對樣本頻率分佈的χ2檢驗在設計方法、資料整理、假設檢驗等方面的差別是什麼?統計學什麼是顯著性水平?它對於假設檢驗決策的意義是什麼?統計學假設檢驗的兩類錯誤之間的區別與聯絡是什麼?統計學假設檢驗的意義何在?應用假設檢驗時要注意哪些問題?統計學