笛卡兒,R.

[拼音]:fangcha fenxi

[英文]:analysis of variance

分析實驗資料的一種重要的數理統計學方法。其要旨是對樣本觀測值的總變差平方和進行適當的分解,以判明實驗中各因素影響的有無及其大小。這是由R.A.費希爾1923年首創的。設Y1,Y2,…,Yn為n個觀測值,

為平均值,稱

為Y1,Y2,…,Yn的變差平方和,簡稱總平方和,它反映觀測值在平均值上下波動的大小。當觀測值受到多種因素的影響時,每一因素都對平方和的值有影響,若能從平方和中分解出反映某一因素影響的那一部分(也用平方和的形式表示),則由這部分的大小就可以推斷該因素的影響是否顯著。但是,若試驗未經適當的設計,則所產生的資料難以進行平方和分解與相應的統計推斷。因此方差分析和實驗設計法是密切相關的,不同的實驗設計相應於不同的方差分析形式,而方差分析理論對實驗設計的選擇又有指導作用。例如,進行一項作物品種與肥料的農業試驗,品種和肥料就是所考慮的兩個不同的因素,而各因素的不同取“值”,稱為該因素的水平。假定有α個品種A1、…、Aα與b種肥料B1、…、Bb供選取,在水平Ai和Bj的組合條件下的試驗稱為一個處理。在這試驗中,全部可能的處理數目共有αb個,即為因素A(品種)與因素B(肥料)的各自水平數的乘積。設每個處理種r塊試驗田,以Yijk)記用第i個品種、第j種肥料在第k個重複試驗的地塊上所得試驗的畝產量,對不同的(i,j,k),Yijk)之值各不相同,它的總變差平方和為

(

是全部Yijk)的平均值),它反映了品種、肥料以及隨機誤差(它包含土壤的不均勻性等大量的不可控因素)的影響,通常又稱總平方和。在這種兩因素試驗情況下總平方和可以分解為四部分

, (1)

式中

(Yijk)-Yij.)2,而Y

為固定i對一切j、k求Yijk)的平均值,Y.j.與Yij.有類似的含義。SSA和 SSB分別反映因素A和B各自對SST的貢獻,分別稱為因素A和B的主效應平方和。SSAB反映由因素A、B的相互影響而對SST的貢獻,稱為A、B的互動效應平方和。SSe反映隨機誤差的影響,通常稱誤差平方和。每項平方和都對應著一個“自由度”,就上例而言,SSA、SSB、SSAB、SSe的自由度分別為α-1、b-1、(α-1)(b-1)和αb(r-1)。 分別記之為ƒA、ƒA、ƒe和ƒe。總平方和SST的自由度 ƒT定義為總的觀測次數減去1,即αbr-1,它恰好是ƒA、ƒA、ƒe和ƒe之和,即有類似於(1)的分解式

(2)

平方和除以各自的自由度稱為均方,記為M S,例如

SSA/(α-1),等等。諸因素效應的大小,用它的均方與誤差均方的比值(記為F)的大小來衡量,例如,FA=M SA/M Se,反映因素 A的主效應對畝產的影響;FB=M SB/M Se反映因素B 的主效應對畝產的影響;

則反映 A與B互動效應對畝產的影響。綜上結果,可以列成一個方差分析表(表

)。

前述例子的模型可寫為

Yijk)=μ+αi+βj+γij+εijk), (3)

式中i=1,…,α;j=1,…,b;k=1,…,r;μ稱總平均;αi、βj分別稱品種(A)與肥料(B)的主效應,γij稱A、B的互動效應,並且滿足約束條件:

。εijk)是隨機誤差。這是一個以μ、αi、βj及γij(i=1,…,α;j=1,…,b)為引數的線性模型(見線性統計模型)。“品種無主效應”這個假設,可表為 HA:αi=0,i=1,…,α,這是一個線性假設。在隨機誤差εijk)獨立、等方差及正態假定下,可用似然比(見假設檢驗)方法檢驗這個假設,所得檢驗統計量正是上表中的FA=M SA/M Se,它是自由度為ƒA與ƒe的F 統計量。類似地可檢驗

在檢驗假設被拒絕後,就有估計效應及對之排序等問題,解決這種問題的工具是線性模型的估計理論以及多重比較的方法。

上例是一個典型的兩種方式分組的方差分析問題,所謂“兩種方式”即指按品種和肥料兩個因素將試驗資料分成αb組。一般地有多種方式分組問題。上例中涉及的品種等都是特定的,因此模型(3)中的效應看作固定引數,故稱固定效應模型。如果討論“品種對產量的影響”這種抽象形式的問題,這時設想有一個無限品種的集合,試驗中所涉及的α個品種,只是作為全體品種的代表從品種集合中隨機抽出的,這時模型(3)中效應不能看成一個引數而應看作隨機變數。若所有效應均為隨機變數,則稱隨機效應模型。若模型中兼有固定和隨機兩種效應,則稱混合效應模型。一般,隨機效應模型的方差分析在形式上與固定效應大體一致,但在作F檢驗(見假設檢驗)時有一些差別。

方差分析的思想也用於迴歸分析的假設檢驗。若在方差分析模型中有未加控制的系統性因素出現,則得到協方差分析模型。如上例,根據在生長期間各試驗地塊蟲害的輕重程度,施用不同量的農藥,記X為農藥用量,它可能是影響產量的系統因素,如模型中不加考慮,必將降低分析精度。考慮的方法是在模型 (3)中加進一項反映該因素影響的量δXijk),即

式中Xijk)為第i個品種、第j種肥料、第k個重複地塊上的使用農藥量。δ 為待估的迴歸係數。上述模型仍是一個線性模型,只不過模型中有連續取值的迴歸變數X和離散取值的方差變數A和B。因此,協方差分析可看成迴歸分析與方差分析的結合。

參考書目

H.cheffe,The Analysis of variance,John Wiley & Sons,New York, 1959.

參考文章

方差分析為何是單側檢驗?統計學方差分析的基本思想是什麼?統計學方差分析的基本思想、應用條件是什麼?統計學為什麼說隨機區組設計方差分析的效率高於完全隨機分組設計的方差分析?統計學什麼是方差分析?它研究的是什麼?有哪些基本假定?統計學