顧誦芬

[拼音]：mohu julei fenxi

[英文]：fuzzy clustering analysis

涉及事物之間的模糊界限時按一定要求對事物進行分類的數學方法。聚類分析是數理統計中的一種多元分析方法，它是用數學方法定量地確定樣本的親疏關係，從而客觀地劃分型別。事物之間的界限，有些是確切的，有些則是模糊的。例如人群中的面貌相像程度之間的界限是模糊的，天氣陰、晴之間的界限也是模糊的。當聚類涉及事物之間的模糊界限時，需運用模糊聚類分析方法。模糊聚類分析廣泛應用在氣象預報、地質、農業、林業等方面。通常把被聚類的事物稱為樣本，將被聚類的一組事物稱為樣本集。模糊聚類分析有兩種基本方法：系統聚類法和逐步聚類法。

系統聚類法

系統聚類法是基於模糊等價關係的模糊聚類分析法。在經典的聚類分析方法中可用經典等價關係對樣本集X進行聚類。設R是 X上的經典等價關係。對X中的兩個元素x和y，若xRy或(x，y)∈R，則將x和y併為一類，否則x和y不屬於同一類。

相應地，可用X上的模糊等價關係對樣本集X進行模糊聚類。設慒是X上的模糊等價關係，

是慒的隸屬函式。對於任何α∈[0，1]，定義慒的α截關係

Sα是X上的經典等價關係。根據Sα得到X 的一種聚類,稱為在α水平上的聚類。即對於X中的任意兩個元素x和y,若

,則x和y屬於同一類；否則x和y不屬於同一類。

應用這種方法,分類的結果與α的取值大小有關。α取值越大,分的類數越多。α小到某一值時,X中的所有樣本歸併為一類。這種方法的優點在於可按實際需要選取α的值，以便得到恰當的分類。

系統聚類法的步驟如下：

（1）用數字描述樣本的特徵。設被聚類的樣本集為 X＝{x1，…,xn}。每個樣本均有p種特徵,記作xi＝(xi1，…，xip)；i＝1，2，…,n；xip表示描述樣本xi的第p個特徵的數。 ②規定樣本之間的相似係數rij(0≤rij≤1；i，j＝1，…，n)。rij描述樣本xi與xj之間的差異或相似的程度。rij 越接近於1,表明樣本xi與xj之間的差異越小;rij 越接近於0，表明xi與xj之間的差異越大。rij可用主觀評定或集體評分的方法規定，也可用公式計算，如採用夾角餘弦法、最小最大法、算術平均最小法等。

因為rii＝1(xi與自身沒有差異),rij＝rji(xi與xj之間的差異等同於xj與xi之間的差異),所以由rij(i，j＝1，…，n)可得X上的模糊相似關係：

一般，R不具備可傳遞性，因而R不一定是 X上的模糊等價關係。

（3）運用合成運算R2＝R⋅R（或R4＝R2⋅R2等）求出最接近相似關係R的模糊等價關係S＝R2（或R4等）。若R已是模糊等價關係，則取S＝R。

（4）選取適當水平α（0≤α≤1）,得到X 的一種聚類。

逐步聚類法

逐步聚類法是一種基於模糊劃分的模糊聚類分析法。它是預先確定好待分類的樣本應分成幾類，然後按最優化原則進行再分類，經多次迭代直到分類比較合理為止。

在分類過程中可認為某個樣本以某一隸屬度隸屬於某一類，又以另一隸屬度隸屬於另一類。這樣，樣本就不是明確地屬於或不屬於某一類。若樣本集有 n個樣本要分成c類，則它的模糊劃分矩陣為

此c×n模糊劃分矩陣有下列特性：

（1）uij∈[0，1]；i＝1，…，c；j＝1,…，n。

（2）

即每一樣本屬於各類的隸屬度之和為1。

（3）

即每一類模糊子集都不是空集。

模糊劃分矩陣有無窮多個，這種模糊劃分矩陣的全體稱為模糊劃分空間。最優分類的標準是樣本與聚類中心的距離平方和最小。因為一個樣本是按不同的隸屬度屬於各類的，所以應同時考慮它與每一類的聚類中心的距離。逐步聚類法需要反覆迭代計算，計算工作量很大，要在電子計算機上進行。算出最優模糊劃分矩陣後，還必須求得相應的常規劃分。此時可將得到的聚類中心存在計算機中，將樣本重新逐個輸入，去與每個聚類中心進行比較，與哪個聚類中心最接近就屬於哪一類。

這種方法要預先知道分類數，如分類數不合理，就重新計算。這就不如運用基於模糊等價關係的系統聚類法，但可以得到聚類中心，即各類模式樣本，而這往往正是所要求的。因此可用模糊等價關係所得結果作為初始分類，再通過反覆迭代法求得更好的結果。