淺析聚類分析方法在食堂消費資料中的應用論文

  聚類***clustering***是資料探勘領域最為常見的技術之一,用於發現在資料庫中未知的物件類。即考察個體或資料物件間的相似性,將滿足相似性條件的個體或資料物件劃分在一組內,不滿足相似性條件的個體或資料物件劃分在不同的組。以下是小編為大家精心準備的:淺析聚類分析方法在食堂消費資料中的應用相關論文。內容僅供參考,歡迎閱讀!

  淺析聚類分析方法在食堂消費資料中的應用全文如下

  【摘要】:以聚類分析方法為基礎,研究學校食堂消費資料,從而分析出男女生消費特點的不同,以幫助食堂改進經營策略。

  【關鍵詞】: 聚類分析 消費資料 SPSS

  1 聚類分析方法

  聚類分析***cluster analysis***是一組將研究物件分為相對同質的群組***clusters***的統計分析技術。聚類分析方法具有簡單、直觀的特點,主要應用於探索性的研究,其中變數的選擇有較大的影響。

  2 聚類分析基本思想

  以學生的消費記錄為研究物件, 使用聚類分析知識進行研究,主要使用K-Means 演算法:

  輸入:聚類個數k 以及包含n 個數據物件的資料集;

  輸出:滿足目標函式值最小的k 個聚類。

  ***1***計算任意兩個資料物件間的距離d***xi,xj***;

  ***2***計算每個資料物件的密度引數,把處於低密度區域的點刪除,得到處於高密度區域的資料物件的集合D;

  ***3***把處於最高密度區域的資料物件作為第1 箇中心z1;

  ***4***把z1 距離最遠的資料物件作為第2 個初始中心z2,z2∈D;

  ***5***令z3 為滿足max***min***d***xi,z1***, d***xi,z2******, i =1,2,…,n 的資料物件xi,z3∈D;

  ***6***令z3 為滿足max***min***d***xi,z1***, d***xi,z2******, d***xi,z3******, i =1,2,…,n 的資料物件xi,z4∈D;

  ***7***令zk 為滿足max***min***d***xi,zj********* , i =1,2,…,n, j =1,2,…,k -1 的xi,zk∈D;

  ***8***從這k 個聚類中心出發,應用k-means 聚類演算法,得到聚類。一般採用均方差作為目標測度函式: 其中E 是資料集中所有物件的均方差之和;p 是代表物件的空間中的一個點。

  3 聚類分析方法在食堂消費資料中的應用

  本文主要使用SPPS 工具來進行聚類分析與研究。SPSS***Statistical Product and Service Solutions,統計產品與服務解決方案***,是一種實現資料分析的多功能軟體。

  SPSS for Windows 是一種執行在Windows 系統下的社會科學統計軟體包,從1968 年由美國斯坦福大學開發使用至今,在全球已經擁有數以萬計的使用者,在通訊、醫療、銀行、證券、保險、製造、商業、市場研究、科學教育等眾多的行業領域都得以有效的應用,目前,SPSS 已成為世界上應用最廣泛的專業統計軟體之一。SPSS 軟體包採用視窗操作介面,使用者操作使用方便,包括資料整理、分析過程、結果輸出等功能。面對龐大的資料量,SPSS 軟體的功能不斷完善,其統計分析方法不斷充實,涵蓋面越來越廣,輸出資料表格圖文並貌,大大提高了統計分析工作的效率。

  SPSS 的基本功能包括資料管理、統計分析、圖表分析、輸出管理等,具體內容包括描述統計、列聯分析,總體的均值比較、相關分析、迴歸模型分析、聚類分析、主成份分析、時間序列分析、非引數檢驗等多個大類, 每個類中還有多個專項統計方法。SPSS 設有專門的繪圖系統,可以根據使用者的需要將給出的資料繪製各種圖形,能夠滿足使用者的不同需求。

  聚類分析工具的應用:

  1***開啟SPSS 軟體,並輸入資料,設定變數名稱,在學生消費資料中選擇了三十名學生的月消費情況作為分析目標,如下圖所示為部分消費情況,其中男女各15 名,將性別男、女處理為二值型資料分別標記為1、2。

  2***每個變數設定的部分格式:

  ***1***名稱:學號,型別:字串,長度:11,對齊方式:左,測量單位:名稱;***2***名稱:性別,型別:數值,長度:1,對齊方式:右,測量單位:名稱;***3***名稱:月消費額,型別:數值,長度:6,對齊方式:右,測量單位:尺度;***4***名稱:交易次數,型別:數值,長度:5,對齊方式:右,測量單位:尺度。

  3***選擇“分析”—“聚類分析”—“快速聚類K”進行分析,則在出現的介面中進行如下設定:

  將”變數”設定為:性別、月消費額、交易次數。

  將“方法”設定為:迭代與聚類。

  將“聚類數目”設定為:2。

  4***對“方法”、“迭代”選項進行設定,點選“確定”即出現運算過程及相應結果:

  ***1***初始聚類中心

  “1”類:性別為“2”***女***,月消費額為278.90,交易次數為155。

  “2”類:性別為“1”***男***,月消費額為520.10,交易次數為171。

  ***2***迭代過程

  在聚類中心的變化分別為63.006、51.977。由於最大絕對座標的變化是.000, 當前迭代是2, 最小距離是241.732,初始中心實現了最小的變化。

  ***3***最終聚類中心

  “1”類:性別為“2”***女***,月消費額為341.33,交易次數為164。

  “2”類:性別為“1”***男***,月消費額為468.13,交易次數為170。

  從上述運算結果可看到30 個觀測量都有效, 並沒有丟失任何一個觀測量。最終,通過以上分析可以看出學生的消費情況可以分為兩類,第一類性別為2,即女生每月消費大概為341.33 元,平均交易164次,而第二類性別為1,即男生每月消費大概為468.13 元,平均交易170 次。從上我們可以看出男生與女生的每月消費情況是不同的,男生消費較多,平均交易也自然的較多,針對食堂來說就應該針對男女生不同的特點,合理安排消費類別,促進學生進行消費。

  總之,使用SPSS 軟體中的聚類功能對校園一卡通資料進行分析,能有效地快速分析出學生消費的一些特徵,對這部分知識的研究這裡僅進行了粗略的分析,在今後的時間裡再進行深入研究。