笛卡兒，R.

[拼音]：fangcha fenxi

[英文]：analysis of variance

分析實驗資料的一種重要的數理統計學方法。其要旨是對樣本觀測值的總變差平方和進行適當的分解，以判明實驗中各因素影響的有無及其大小。這是由R.A.費希爾1923年首創的。設Y1，Y2，…，Yn為n個觀測值，

為平均值，稱

為Y1，Y2，…，Yn的變差平方和，簡稱總平方和，它反映觀測值在平均值上下波動的大小。當觀測值受到多種因素的影響時，每一因素都對平方和的值有影響，若能從平方和中分解出反映某一因素影響的那一部分(也用平方和的形式表示)，則由這部分的大小就可以推斷該因素的影響是否顯著。但是，若試驗未經適當的設計，則所產生的資料難以進行平方和分解與相應的統計推斷。因此方差分析和實驗設計法是密切相關的，不同的實驗設計相應於不同的方差分析形式，而方差分析理論對實驗設計的選擇又有指導作用。例如，進行一項作物品種與肥料的農業試驗，品種和肥料就是所考慮的兩個不同的因素，而各因素的不同取“值”，稱為該因素的水平。假定有α個品種A1、…、Aα與b種肥料B1、…、Bb供選取，在水平Ai和Bj的組合條件下的試驗稱為一個處理。在這試驗中，全部可能的處理數目共有αb個，即為因素A（品種）與因素B（肥料）的各自水平數的乘積。設每個處理種r塊試驗田，以Yijk)記用第i個品種、第j種肥料在第k個重複試驗的地塊上所得試驗的畝產量，對不同的(i，j，k)，Yijk)之值各不相同，它的總變差平方和為

(

是全部Yijk)的平均值)，它反映了品種、肥料以及隨機誤差(它包含土壤的不均勻性等大量的不可控因素)的影響，通常又稱總平方和。在這種兩因素試驗情況下總平方和可以分解為四部分

， (1)

式中

(Yijk)-Yij.)2，而Y

為固定i對一切j、k求Yijk)的平均值，Y.j.與Yij.有類似的含義。SSA和 SSB分別反映因素A和B各自對SST的貢獻，分別稱為因素A和B的主效應平方和。SSAB反映由因素A、B的相互影響而對SST的貢獻，稱為A、B的互動效應平方和。SSe反映隨機誤差的影響，通常稱誤差平方和。每項平方和都對應著一個“自由度”，就上例而言，SSA、SSB、SSAB、SSe的自由度分別為α-1、b-1、(α-1)(b-1)和αb(r-1)。分別記之為ƒA、ƒA、ƒe和ƒe。總平方和SST的自由度 ƒT定義為總的觀測次數減去1，即αbr-1，它恰好是ƒA、ƒA、ƒe和ƒe之和，即有類似於(1)的分解式

(2)

平方和除以各自的自由度稱為均方，記為M S，例如

SSA/(α-1)，等等。諸因素效應的大小，用它的均方與誤差均方的比值(記為F)的大小來衡量，例如，FA=M SA/M Se，反映因素 A的主效應對畝產的影響；FB＝M SB/M Se反映因素B 的主效應對畝產的影響；

則反映 A與B互動效應對畝產的影響。綜上結果，可以列成一個方差分析表（表

）。

前述例子的模型可寫為

Yijk)=μ＋αi＋βj＋γij＋εijk)， (3)

式中i=1，…，α；j=1，…，b；k=1，…，r；μ稱總平均；αi、βj分別稱品種(A)與肥料(B)的主效應，γij稱A、B的互動效應，並且滿足約束條件：

。εijk)是隨機誤差。這是一個以μ、αi、βj及γij(i=1，…，α；j=1，…，b)為引數的線性模型(見線性統計模型)。“品種無主效應”這個假設，可表為 HA:αi=0，i=1，…，α，這是一個線性假設。在隨機誤差εijk)獨立、等方差及正態假定下，可用似然比（見假設檢驗）方法檢驗這個假設，所得檢驗統計量正是上表中的FA=M SA/M Se，它是自由度為ƒA與ƒe的F 統計量。類似地可檢驗

和

在檢驗假設被拒絕後，就有估計效應及對之排序等問題，解決這種問題的工具是線性模型的估計理論以及多重比較的方法。

上例是一個典型的兩種方式分組的方差分析問題，所謂“兩種方式”即指按品種和肥料兩個因素將試驗資料分成αb組。一般地有多種方式分組問題。上例中涉及的品種等都是特定的，因此模型(3)中的效應看作固定引數，故稱固定效應模型。如果討論“品種對產量的影響”這種抽象形式的問題，這時設想有一個無限品種的集合，試驗中所涉及的α個品種，只是作為全體品種的代表從品種集合中隨機抽出的，這時模型(3)中效應不能看成一個引數而應看作隨機變數。若所有效應均為隨機變數，則稱隨機效應模型。若模型中兼有固定和隨機兩種效應，則稱混合效應模型。一般，隨機效應模型的方差分析在形式上與固定效應大體一致，但在作F檢驗(見假設檢驗)時有一些差別。

方差分析的思想也用於迴歸分析的假設檢驗。若在方差分析模型中有未加控制的系統性因素出現，則得到協方差分析模型。如上例，根據在生長期間各試驗地塊蟲害的輕重程度，施用不同量的農藥，記X為農藥用量，它可能是影響產量的系統因素，如模型中不加考慮，必將降低分析精度。考慮的方法是在模型 (3)中加進一項反映該因素影響的量δXijk)，即